ANALISIS REGRESI PADA DATA OUTLIER DENGAN …repository.uinjkt.ac.id/dspace/bitstream/123456789/2309/1/HERU... · analisis regresi pada data outlier . dengan menggunakan least trimmed

ANALISIS REGRESI PADA DATA OUTLIER

DENGAN MENGGUNAKAN LEAST TRIMMED SQUARE

(LTS) DAN MM-ESTIMASI

Heru Nurcahyadi

PROGRAM STUDI MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI

SYARIF HIDAYATULLAH

JAKARTA

2010 M / 1432 H

ii

PENGESAHAN UJIAN

Skripsi berjudul “Analisis Regresi pada Data Outlier dengan

Menggunkan Least Trimmed Square (LTS) dan MM-Estimasi” yang ditulis

oleh Heru Nurcahyadi, NIM 105094003092 telah diuji dan dinyatakan lulus

dalam sidang Munaqosyah Fakultas Sains dan Teknologi Universitas Islam

Negeri Syarif Hidayatullah Jakarta pada tanggal 19 Mei 2009. Skripsi ini telah

diterima sebagai salah satu satu syarat untuk memperoleh gelar sarjana strata satu

(S1) Program Studi Matematika.

Menyetujui :

Penguji 1, Penguji 2,

Yanne Irene, M.Si Gustina Elfiyanti, M.Si

NIP. 19741231 2005012 018 NIP. 19820820 200901 2006

Pembimbing 1, Pembimbing 2,

Summa’inna, M.Si Bambang Ruswandi, M.Stat

NIP. 150 408 699 NIP. 0305 108 301

Mengetahui :

Dekan Fakultas Sains dan Teknologi Ketua Program Studi Matematika,

DR. Syopiansyah Jaya Putra, M.Sis Yanne Irene, M.Si

NIP. 19680117 200112 1 001 NIP. 19741231 2005012 018

PERSEMBAHAN

Skripsi ini aku persembahkan untuk kedua orang tuaku,

keluarga besarku, dan keluarga besar Prodi Matematika

MOTTO

‘Karena sesungguhnya sesudah kesulitan itu ada kemudahan, dan

sesungguhnya sesudah kesulitan itu ada kemudahan. Maka apabila kamu telah

selesai (dari sesuatu urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang

lain, dan hanya kepada Tuhanmulah kamu berharap.’

(QS. Alam Nasyrah ayat 5-8) “pelajarilah ilmu

Barang siapa mempelajarinya karena ALLAH, itu Taqwa.

Menuntutnya, itu Ibadah.

Mengulang-ngulangnya, itu Tasbih.

Membahasnya, itu Jihad.

Mengajarkannya kepada orang yang tidak tahu, itu Sedekah.

Memberikannya kepada ahlinya, itu mendekatkan diri kepada ALLAH.”

(Muhammad bin Muhammad al-Ghazali).

iii

PERNYATAAN

DENGAN INI SAYA MENYATAKAN BAHWA SKRIPSI INI BENAR-

BENAR HASIL KARYA SENDIRI YANG BELUM PERNAH DIAJUKAN

SEBAGAI SKRIPSI ATAU KARYA ILMIAH PADA PERGURUAN TINGGI

ATAU LEMBAGA MANAPUN.

Jakarta, 15 Desember 2010

Heru Nurcahyadi

105094003092

vi

ABSTRACT

Regression analysis is a statistical methodology that describes the

relationship of independent variables and the dependent variable. From the

relationship it established a model that can be used to predict the value of the

dependent variable using the dependent variable. The resulting model is derived

from the method of least square (LS), which must satisfy some assumptions. With

the existence of a data which is not similar to most other data, called outliers,

then the LS method using the resulting regression model did not meet the

assumptions and regression models did not fit with the data.

Outlier on the x-direction is called leverage can be detected by using the

h-hat matrix, while the y-direction is called discrepancies can be detected by

using the externally studentized residual, and the influence can be detected by

using DFFITS and COOK'SD.

method of least trimmed square (LTS) to produce regression

models that fit to the data even though half of the data is outlier data,

because it has a high value of breakdown point that is 50%. Other robust

methods that have a breakdown point of 50% is MM-Estimate that use the

S-Estimated initial iteration. LTS model is very good at simple regression

analysis compared with MM-estimation seen from the estimated residual

scale. While the multiple regression analysis of MM-Estimation is better

when compared with the LTS seen from the estimated residual scale.

Keywords: least square (LS), outlier, leverage, h-hat matrix,

discrepancies, externally studentized residual, value influences, DFFITS,

COOK'SD, least trimmed square (LTS), breakdown point, robust method,

MM-estimation, S-estimation.

v

ABSTRAK

Analisis regresi adalah metodologi statistika yang menggambarkan

hubungan atau pengaruh dari varibel independen dan variable dependen. Dari

hubungan itu dibentuk suatu model yang bisa digunakan untuk memprediksikan

nilai variable dependen dengan menggunakan variable dependen. Model yang

dihasilkan diturunkan dari metode least square (LS), yang harus memenuhi

beberapa asumsi. Dengan adanya suatu data yang tidak sejenis dengan sebagian

data yang lain, yang disebut outlier, maka penggunaan metode LS model regresi

yang dihasilkan tidak memenuhi asumsinya dan model regresinya tidak fit dengan

data.

Outlier pada arah-x disebut leverage dapat dideteksi dengan menggunakan

h-hat matrik, sedangkan pada arah-y disebut discrepancy dapat dideteksi dengan

menggunakan externally studentized residual, dan nilai influence dapat dideteksi

dengan menggunakan DFFITS dan COOK’SD.

metode least trimmed square (LTS) dapat menghasilkan model regresi

yang fit terhadap data walaupun setengah dari datanya merupakan data outlier,

karena mempunyai nilai breakdown point yang tinggi yaitu 50%. Metode robust

yang lain yang mempunyai breakdown point 50% adalah MM-Estimasi yang

menggunkan iterasi awal S-Estimasi. Model LTS sangat baik pada analisi regresi

sederhana dibandingkan MM-estimasi dilihat dari estimasi skala residualnya.

Sedangkan pada analisis regresi berganda MM-estimasi lebih baik jika

dibandingkan dengan LTS dilihat dari estimasi skala residualnya.

Kata kunci: least square (LS), Outlier, leverage, h-hat matrik,

discrepancy, externally studentized residual, DFFITS, COOK’SD, least trimmed

square (LTS), breakdown point, metode robust, MM-Estimasi, S-Estimasi.

vii

KATA PENGANTAR

بسم هللا اار حمن اار حيم

Assalamu’alaikum Wr. Wb.

Puji syukur kehadirat Allah SWT yang telah memberi rahmat dan karunia-

Nya sehingga penulis dapat menyelesaikan skripsi ini. Shalawat serta salam tak

lupa disampaikan kepada Nabi Muhammad SAW. Skripsi ini adalah syarat

kelulusan yang harus ditempuh dalam menyelesaikan pendidikan sarjana strata

satu Program Studi Matematika Fakultas Sains dan Teknologi Universitas Islam

Negeri Syarif Hidayatullah Jakarta.

Kami mengucapkan terima kasih kepada para pihak yang telah banyak

membantu dalam penyelesaian skripsi ini, di antaranya :

1. Dr. Syopiansyah Jaya Putra, M.Sis, Dekan Fakultas Sains dan Teknologi .

2. Yanne Irene, M.Si, sebagai Ketua Program Studi Matematika dan dosen

penguji I.

3. Suma’inna, M.Si, Sekretaris Program Studi Matematika dan dosen

Pembimbing I.

4. Bambang Ruswandi, M.Stat, dosen pembimbing II

5. Seluruh dosen Prodi Matematika yang telah memberikan ilmu-ilmu yang

sangat bermanfaat bagi penulis.

6. Seluruh civitas akademika Fakultas Sains dan Teknologi atas bantuannya

dalam bidang administrasi.

viii

7. Kedua orang tuaku: H. Ahyad dan Hj. Nurhayati, adikku: Herwin Adriyan,

dan keluargaku yang senantiasa mendoakan dan memberikan semangat selalu

pada penulis dalam penyelesaian skripsi ini.

8. Pamanku, Sersan Satu Unang Sunarya dan keluarganya yang telah banyak

mendorong dan membantu dalam penyelesaian skripsi ini.

9. Mukhlis, Dede Kurniawan, Syakur, dan Perdy atas persahabatannya selama

ini, semoga selalu kekal hingga akhir waktu.

10. Seluruh teman-teman angkatan 2004, 2005, 2006, 2007, dan 2008 semoga

Allah tetap mengekalkan ukhuwah kita.

Kritik dan saran sangat kami harapkan demi penyempurnaan skripsi.

Mohon maaf bila ada kekurangan. Semoga skripsi ini dapat bermanfaat bagi para

pembaca, khususnya bagi penulis pribadi.

Wassalamu’alaikum Wr.Wb.

Jakarta, 15 Desember 2010

Penulis

ix

DAFTAR ISI

HALAMAN JUDUL .............................................................................. i

PENGESAHAN UJIAN ......................................................................... . ii

PERNYATAAN ...................................................................................... . iii

PERSEMBAHAN DAN MOTTO ............................................................ iv

ABSTRAK ............................................................................................... v

ABSTRACT ............................................................................................. vi

KATA PENGANTAR ........................................................................... vii

DAFTAR ISI ........................................................................................... ix

DAFTAR TABEL .................................................................................. xi

DAFTAR GAMBAR ................................................................................. xiii

DAFTAR LAMPIRAN ........................................................................... . xiv

BAB I. PENDAHULUAN ..................................................................... 1

1.1. Latar Belakang ................................................................... 1

1.2. Permasalahan...................................................................... 4

1.3. Pembatasan Masalah .......................................................... 4

1.4. Tujuan Penulisan ................................................................ 5

1.5. Manfaat Penulisan .............................................................. 5

BAB II. LANDASAN TEORI ................................................................. 6

2.1. Model Persamaan Regresi Linear………………………… 6

2.2. Outlier Dalam Regresi: Sumber, Jenis danDeteksi Outlier… 11

2.3. Robust Estimasi…………………………………………... 26

x

BAB III. ROBUST ESTIMASI PADA REGRESI ................................... 37

3.1. Least Trimmed Square ....................................................... 37

3.2. MM-Estimasi ..................................................................... 45

BAB IV. APLIKASI MODEL .................................................................. 52

4.1. Aplikasi pada Regresi Sederhana ....................................... 52

4.2. Aplikasi pada Regresi Berganda ........................................ 60

BAB V. KESIMPULAN DAN SARAN .................................................. 65

5.1. Kesimpulan ........................................................................ 65

5.2. Saran ................................................................................... 61

REFERENSI ............................................................................................ 67

LAMPIRAN .............................................................................................. 68

xiii

DAFTAR GAMBAR

Gambar 2.1 : Model Regresi Linear Sederhana ................................................. 7

Gambar 2.2 : Garis Least Square ....................................................................... 9

Gambar 2.3 : Outlier pada Arah-y ................................................................... 14

Gambar 2.4 : Outlier pada Arah-x ................................................................... 15

Gambar 2.5 : Outlier pada (xk,yk) ….. ............................................................. 16

Gambar 2.6 : Fungsi Huber .............................................................................. 25

Gambar 2.7 : Fungsi Bisquare ........................................................................ 31

Gambar 4.1 : Plot Leverage ... ......................................................................... 53

Gambar 4.2 : Scatterplot dan Garis Least Square ........................................... 56

Gambar 4.3 : Distribusi Normal Residual Data Pensiunan .............................. 56

Gambar 4.4 : Garis Least Trimmed Square Data Pensiunan ............................ 57

Gambar 4.5 : Garis MM-Estimasi Data Pensiunan .......................................... 59

Gambar 4.6 : Distribusi Normal Data Table (4.5) ........................................... 62

xi

DAFTAR TABEL

Tabel 3.3.1: Efisiensi Asimptotik S-Estimator ................................................ 51

Tabel 4.1 : dana pensiunan ........................................................................... 52

Tabel 4.2 : pemeriksaan data outlier pada arah-x dana pensiunan ................ 53

Tabel 4.3 : pemeriksaan data outlier pada arah-y dana pensiunan ................ 54

Tabel 4.4 : Perbandingan LS, LTS, MM-Estimasi Dana Pensiunan ............. 59

Tabel 4.5 : Data Survival Time ..................................................................... 60

Tabel 4.6 : pemeriksaan data outlier pada data table 4.5 . ............................ 62

Tabel 4.7 : Perbandingan LS, LTS, MM-Estimasi data tabel 4.5 ................. 64

xiv

DAFTAR LAMPIRAN

Lampiran 1 : Data Dana Pensiunan ................................................................. 68

Lampiran 2 : Pemeriksaan Data Outlier pada Arah-x Dana Pensiunan .......... 68

Lampiran 3 : Pemeriksaan Data Outlier pada Arah-y Dana Pensiunan .......... 69

Lampiran 4 : Data Survival Time .................................................................... 70

Lampiran 5 : Pemeriksaan Leverage Data Survival Time ….. ........................ 71

Lampiran 6 : Pemeriksaan Discrepancy Data Survival Time …..................... 72

Lampiran 7 : Pemeriksaan Nilai Influence Data Survival Time ….. ............... 73

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Model matematik dalam statistika merupakan penyederhanaan dari realitas

atau permasalahan yang diteliti oleh statistikawan. Oleh karena itu, diperlukan

asumsi-asumsi agar model tersebut dapat menggambarkan permasalahannya.

Selain itu, asumsi diperlukan agar dapat merumuskan apa yang statistikawan

ketahui atau terka (conjectures) mengenai penganalisisan data atau masalah

permodelan statistik yang dihadapinya, dan pada saat yang bersamaan asumsi

diperlukan agar model yang dihasilkan dapat memudahkan (manageable) dalam

sudut pandang teoritik dan komputasinya. Salah satu asumsi yang paling banyak

ditemukan dalam satatistik adalah asumsi kenormalan, yang telah ada selama 2

abad, asumsi kenormalan menjadi kerangka berpikir dalam semua metode statistik

inferensi, yaitu: Regresi, analisis variansi, analisis multivarit, model runtun waktu

dan lain-lain. Bahkan terdapat justifikasi untuk asumsi kenormalan dengan

argumen teori yaitu teorema limit pusat.

Sering kali dalam prakteknya asumsi kenormalan terpenuhi secara

aproksimasi pada sebagian besar data observasi. Bahkan, beberapa observasi

berbeda pola atau bahkan tidak berpola mengikuti distribusi normal. Hal ini

dikarenakan observasi yang “tidak normal”, observasi yang terpisah dari obsevasi-

observasi lainnya yang dikenal dengan data outlier. Dengan data outlier asumsi

kenormalan seringkali tidak terpenuhi, walupun jumlah data cukup besar.

2

Sehingga statistikawan kemungkinan melakukan kesalahan dalam memodelkan

suatu fenomena dengan adanya kehadiran data outlier. Oleh karena itu, diperlukan

metode yang bisa mengatasi masalah tersebut.

Dalam mengatasi data outlier harus dilihat dari sumber munculnya data

yang menjadi outlier tersebut. Outlier mungkin ada karena adanya data

terkontaminasi, yaitu adanya kesalahan pada saat melakukan pengambilan sampel

pada populasi. Outlier yang disebabkan oleh data terkontaminasi dapat

dihapuskan dari data penelitian atau jika memungkinkan dilakukan sampling

ulang. Akan tetapi, jika setelah melakukan beberapa kali sampling ulang namun

data outlier tetap muncul maka data tersebut jangan dihapuskan dari data

penelitian, karena analisis data yang dihasilkan akan tidak mencerminkan populasi

yang diteliti. Outlier pada kasus tersebut digolongkan pada kasus yang jarang.

Untuk mengatasinya diperlukan metode lain supaya analisis data dengan hadirnya

data outlier tetap tahan (robust) terhadap asumsi yang diterapkan pada

penganalisisan datanya. Metode tersebut dikenal dengan Metode Robust. Metode

inilah yang akan jadi penelitain penulis pada tugas akhir ini.

Model matematik dalam statistika yang banyak ditemukan dalam berbagai

bidang adalah model regresi. Model regresi merupakan suatu model yang

menggambarkan hubungan dari variabel dependen dengan variabel-variabel

independen, dengan adanya hubungan tersebut diharapkan variabel independen

dapat memprediksikan nilai-nilai variabel dependen. Model regresi

mengasumsikan bahwa error dari model tersebut harus berdistribusi normal,

bervariansi konstan, dan saling independen antar observasi. Dengan adanya

3

outlier pada data regresi mengakibatkan model regresi tidak memenuhi asumsinya

dan model regresi tidak cocok (fit) terhadap data yang akan dimodelkan, karena

nilai koefisien dari model regresi tersebut sangat dipengaruhi oleh adanya outlier.

Oleh karena itu, model yang dihasilkan tidak dapat digunakan untuk

memprediksikan. Sehingga, outlier pada regresi harus diatasi.

Salah satu metode guna mengatasi outlier pada regresi adalah metode

robust. Metode robust yang akan dipakai pada tugas akhir ini adalah MM-

Estimasi dan least trimmed square (LTS) merupakan dua metode yang

mempunyai nilai breakdown point yang tinggi yaitu hampir 50%. MM-estimasi

merupakan metode robust dengan iterasi point estimasi dari model regresi. Dalam

MM-estimasi dibutuhkan iterasi awal (initial) dan iterasi akhir (final). LTS

merupakan metode dengan pertama-tama menghitung h, banyak data yang

menjdikan estimasi Robust, dengan sebelumnya menyusun residual kuadrat dari

yang terkecil sampai dengan yang terbesar.

Disamping penanganan outlier pada regresi, yang lebih penting adalah

pengidentifikasian data yang menjadi outlier. Metode pengidentifikasian yang

digunakan pada tugas akhir ini adalah dengan melihat leverage, nilai discrepancy,

dan nilai influence-nya. leverage hanya menggambarkan kasus yang terjadi pada

variabel independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh

kasus tesebut dari nilai mean himpunan data variabel independen. Sedangkan

discrepancy merupakan jarak antara nilai prediksi dengan nilai observasi dari

variabel dependen (Y), yaitu î iY Y , yang merupakan nilai dari residual, ie .

Pada dasarnya, nilai yang menjadi outlier menyebabkan nilai residual menjadi

4

besar dan tidak jatuh pada garis regresi. dan yang terakhir nilai influence

merupakan kombinasi dari ukuran leverage dan discrepancy yang

menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika

kasus ke-i dihilangkan dari himpunan data.

1.2 Permasalahan

1. Bagaimana pengidentifikasian outlier dengan menggunakan leverage,

nilai discrepancy, dan nilai influence dari data regresi.

2. Bagaimana cara mengestimasi nilai-nilai parameter model regresi

dengan adanya data outlier dengan menggunakan Least trimmed

square (LTS) dan MM-Estimasi pada data regresi tersebut.

3. Bagaimana perbandingan model regresi yang dihasilkan dengan

menggunakan Least trimmed square (LTS) dan MM-Estimasi.

1.3 Pembatasan Masalah

Pada skripsi ini, permasalahan akan dibatasi, yaitu sebagai berikut:

1. Data outlier diasumsikan bukan berasal dari sumber kesalahan

sampling, akan tetapi data outlier tersebut merupakan kejadian yang

khusus atau jarang.

2. Pengidentifikasian outlier menggunakan metode h-matriks untuk

mengidentifikasi nilai leverage, metode externally studentized

residual untuk mengidentifikasi nilai discrepancy, dan metode

DFFIT’S dan Cook’sD untuk mengidentifikasi niali influence.

5

3. Penanganan data outlier pada regresi akan digunakan metode MM-

Estimasi dan Least Trimmed Square, kemudian perbandingannya

hanya dengan melihat estimasi skala residualnya.

4. Asumsi regresi yang dipakai hanya asumsi kenormalan.

1.4 Tujuan Penulisan

1. Mengidentifikasikan data outlier dengan menggunakan leverage, nilai

discrepancy, dan nilai influence dari data regresi, sehingga diketahui

data yang menjadi outlier dari sekumpulan data regresi.

2. Mengetahui cara mengestimasi nilai-nilai model parameter regresi


square (LTS) dan MM-Estimasi pada data regresi.

3. Membandingkan model regresi yang dihasilkan dengan menggunakan

Least trimmed square (LTS) dan MM-Estimasi.

1.5 Manfaat Penulisan

1. Dapat mengetahui cara pengidentifikasian outlier dengan

menggunakan leverage, nilai discrepancy, dan nilai influence dari data

regresi.

2. Dapat mengetahui pengestimasian nilai-nilai model parameter regresi


square (LTS) dan MM-Estimasi pada data regresi.

3. Dapat mengetahui perbandingan model regresi yang dihasilkan

dengan menggunakan Least trimmed square (LTS) dan MM-

Estimasi.

6

BAB II

LANDASAN TEORI

2.1 Model Persamaan Regresi Linear

Analisis regresi merupakan suatu proses pencarian model matematika

terbaik yang cocok dengan data yang menghubungkan variabel dependen (juga

biasa disebut respon) dengan variabel independen (prediktor). Bentuk umum

model regresi linear adalah:

yEy 2.1

Dengan,

y = variabel dependen

yE = ekspektasi dari y.

= random error.

Model regresi di atas tidak mempertimbangkan sejumlah variabel

independen (x) yang berkorelasi sangat kuat dengan variabel dependen (y),

dengan menggunakan variabel independen maka keakuratan dalam mengestiamsi

yE dapat diperoleh. Sehingga yE dapat diestimasi dengan bentuk persamaan

linear, yaitu:

xyE 10 2.2

Dengan model probabilistik, Persamaan 2.2 di atas ditulis dengan:

7

xy 10 2.3

Persamaan 2.3 di atas disebut Model Linear Orde-Pertama atau Model

Linear Sederhana, karena hanya terdapat satu variabel independen dengan :

y = variabel dependen.

x = variabel independen.

yE = x10 = komponen deterministik.

0 = intercept pada sumbu y, titik potong dengan sumbu y.

1 = kemiringan dari garis regresi, yaitu sejumlah kenaikan (atau

penurunan) dari mean y untuk setiap kenaikan (atau penurunan) 1-unit x.

= komponen random error.

Jika terdapat variabel independen lebih dari satu, maka modelnya disebut

Model Regresi Linear Berganda atau Model Regresi Linear Umum dengan

persamaan modelnya sebagai berikut :

kk xxxy .....2210 2.4

Pada Persamaan-persamaan di atas (2.3 dan 2.4) terdapat komponen

random error ( ). Distribusi dari menentukan seberapa ”bagusnya” model yang

1 2 3 4

1

2

3

4

0

1

xyE 10

x

y

Gambar 2.1 Model Regresi Linear Sederhana

8

menggambarkan hubungan sebenarnya antara variabel dependen y dan variabel

independen x. Ada empat asumsi yang menyangkut distribusi dari , yaitu [1] :

1.Mean distribusi probabilitas dari adalah 0. Artinya rata-rata error

pada percobaan yang dilakukan secara tak hingga adalah 0 untuk setiap

pengambilan variabel independen. Asusmsi ini mengakibatkan nilai mean dari y,

untuk setiap nilai x yang diberikan adalah xyE 10 .

2.Variansi distribusi probabilitas dari adalah konstan untuk setiap

pengambilan variabel independen.

3.Distribusi probabilitas dari berdistribusi normal.

4.Error dari setiap dua observasi adalah independen. Artinya error dari

salah satu nilai y tidak memberikan pengaruh terhadap error dari nilai y yang lain.

Dari persamaan-persamaan di atas nilai koefisien yaitu 0 dan i (untuk i

= 1 sampai dengan k) tidak diketahui karena merupakan nilai parameter. Oleh

karena itu, dibutuhkan data sampel untuk mengestimasi koefisien-koefisien

tersebut.

Misalkan kYYY ,....,, 21 merupakan variabel random berdistribusi normal

dengan mean masing-masing ixyE 0 , dengan i = 1, 2, ....,k, dan variansi

yang tidak diketahui 2 Misalkan akan dicari model regresi linear sederhana.

Fungsi likelihood dari variabel random kYYY ,....,, 21 adalah:

k

i

ii

k

k

i

ii

xy

xyL

1

2

102

2

2

12

2

10

2

2

10

2

1exp

2

1

2exp

2

1,,

9

Untuk memaksimumkan fungsi 2

10 ,, L , atau ekuivalen dengan

meminimumkan:

2

1

2

10

22

102

2ln2

,,ln

k

i

ii xyk

L ,

harus dipilih 0 dan 1 dengan meminimumkan:

k

i

ii xyH1

2

1010 ,

Karena yEyxy iii 10 merupakan jarak vertikal dari titik

ii yx , terhadap garis yEy . Oleh karena itu, 10 ,H merepresentasikan

jumlah kuadrat tersebut. Dengan memilih 0 dan 1 sedemikian hingga jumlah

kuadrat dari jarak tersebut minimum dengan seperti itu artinya garis lurus

yEy mem-fitting data. Oleh karena itu, metode ini disebut Metode Least

square [1].

Untuk meminimumkan 10 ,H , harus dicari 0

,

0

10

H dan

0

,

1

10

H ,

110 xyE ii yx ,

yEyi

Gambar 2.2 Garis Least Square

10

xyk

xy

xky

xyH

k

i

i

k

i

i

k

i

i

k

i

i

k

i

ii

1

1

1

0

1

10

1

1

10

0

10

ˆ

0

012,

Jadi dari penurunan diatas di dapat xy 10ˆˆ , notasi merupakan

notasi estimator untuk nilai parameter , sedangkan untuk nilai 1 adalah

sebagai berikut:

k

i

i

k

i

ii

k

i

ii

k

i

i

k

i

ik

i

i

k

i

ii

k

i

i

k

i

ik

i

k

i

i

ii

k

i

i

k

i

i

k

i

k

i

iii

k

i

iiii

k

i

iii

xkx

yxkyx

yxkyxxkx

k

x

xkarenaxxkxykxy

xk

x

kxk

x

kyxy

xxxxyxy

xykarenaxxxyxy

xxyH

1

22

1

1

1

2

1

2

1

1

1

2

1

2

1

1

1

2

11

1

1

1

1

2

1

1

1

1 1

10

1

2

11

1

10

1

10

ˆ

0

0

0

0

02,

Jadi dari penurunan di atas nilai dari 1 yang merupakan estimator dari 1

adalah

k

i

i

k

i

ii

xkx

yxkyx

1

22

11

, dengan k merupakan jumlah data sampel.

11

2.2 Outlier Dalam Regresi: Sumber, Jenis dan Deteksi Outlier

2.2.1 Sumber Outlier

Outlier adalah satu atau lebih data yang tidak biasa, yang tidak cocok dari

sebagian data lainnya (one or more atypical data points that do not fit with the

rest of the data). Outlier mungkin disebabkan karena dalam melakukan observasi

melakukan beberapa kesalahan, hal ini yang biasa disebut observasi

terkontaminasi, juga bisa outlier merepresentasikan observasi yang akurat dari

kasus yang jarang. Apapun sumber outlier, dalam beberapa kasus menyebabkan

dampak yang sangat besar dalam mengestimasi koefisien regresi , standar error,

dan estimasi keseluruhan variabel prediktor, 2R .[2]

Outlier muncul karena data terkontaminasi dalam beberapa cara.

Observasi yang terkontaminasi dapat dan harus diminimalisir dengan prosedur

penelitian dan pengolahan data yang hati-hati. Observasi yang terkontaminasi

disebabkan [2]:

1. Kesalahan pelaksanaan prosedur penelitian; misalnya: interviewer salah baca

dalam beberapa pertanyaan, atau eksperimenter melakukan yang salah atau

perlakuan yang kurang sempurna.

2. Ketidakakuratan dalam pengukuran variabel dependen; misalnya peralatan

mengalami kerusakan sehingga pengukuran variabel dependen tidak akurat.

3. Kesalahan penulisan atau pengetikan data.

4. Kesalahan perhitungan dari pengukuran; mislnya peneliti kurang tepat

menghitung sejumlah variabel independen atau membuat kesalahan dalam

perhitungan dari ukuran

12

5. Partisipan yang kurang perhatian. Misal dala kasus tertentu, partisipan sedang

dalam keadaan lelah, sakit atau mabuk, dan tidak mampu merespon dengan

baik terhadap materi percobaan.

Tiap statistik diagnostik yang akan dibahas nanti, secara potensial dapat

menolong dalam pendeketsian data yang terkontaminasi. Ketika peneliti

mendeteksi outlier, perlakuan pertamanya adalah melihat kemungkinan bahwa

outlier merupakan data yang terkontaminasi. Data dan perhitungan harus

diperiksa keakurasiannya. Jika dapat diverifikasi bahwa outlier merupakan data

yang terkontaminasi, maka data tersebut tidak harus dimasukkan dalam

penganalisisan data. Jika memungkinkan, peneliti bisa mengganti data yang

terkontaminasi ini dengan data yang benar dari kasus yang ditelitinya, atau

menghapusnya dari himpunan data yang diteliti.

Untuk kasus yang lain, outlier dapat juga merepresentasikan data yang

valid, tidak terkontaminasi, akan tetapi outlier tersebut merupakan kasus yang

jarang dalam populasi. Ketika outlier yang dideteksi bukan data yang

terkontaminasi, maka outlier dapat diperlakukan dengan dua penekanan dalam

mengatasi outlier. Pertama, mengeliminasi pengaruh dari kasus jarang tersebut.

Kedua, outlier mungkin merepresentasikan signal yang halus dari suatu fenomena

yang sangat penting atau ketidak-tepatan dari penentuan model regresi yang telah

diujikan, dan penelitian berusaha untuk memahami kasus yang jarang ini sebagai

sesuatu yang membawa ke bentuk yang sangat penting dalam penelitian ilmiah.

13

2.2.2 Jenis Outlier

Analisis regresi memberikan suatu model yang menggambarkan

hubungan dari beberapa variabel independen ( iX , i = 1,2,…n) dengan variabel

dependen ( , 1,2,....,iY i n ). Model regresi tersebut didapatkan dengan

menggunkan metode estimasi kuadrat terkecil (least square estimate). Metode LS

didasarkan pada asumsi bahwa error dari model yang dihasilkan harus

berdistribusi normal. Karena dengan error berdistribusi normal metode LS

memberikan estimasi parameter yang optimal bagi model regresi tersebut [3].

Akan tetapi, dengan adanya data outlier asumsi kenormalan model regresi

tersebut akan tidak terpenuhi [5]. Seperti diketahui pada analisis regresi, terdapat

satu variabel dependen yang digambarkan pada scatterplot sebagai arah y, dan

beberapa variabel independen pada scatterplot digambarkan sebagai arah x. Oleh

karena itu, keberadaan data outlier mungkin teredapat pada arah-y atau pada arah-

x atau di keduanya.

Data outlier pada arah-y akan memberikan nilai residual r yang sangat

besar (positif atau negatif). Hal ini disebabkan karena data yang menjadi outlier

mempunyai jarak yang sangat besar terhadap garis LS. Seperti yang ditunjukkan

gambar (2.3.a) yang merupakan scatterplot dan garis LS dari enam titik,

1 1 6 6, ,...., ,x y x y , yang hampir terletak pada suatu garis lurus (garis LS). Oleh

karena itu, penyelesaian LS kecocokannya sangat bagus untuk ke-6 data tersebut.

Akan tetapi, andaikan dengan data yang sama, tetapi data ke-4 merupakan data

outlier, yaitu 4y yang disebabkan karena ada suatu kesalahan, maka titik 4 4,x y

mungkin akan jauh dari garis ideal (garis LS). Hal ini digambarkan pada gambar

14

Gambar 2.3 (a). Enam data asli dan garis LS-nya. (b). Data yang

sama dengan data pada (a), tetapi dengan outlier dalam arah-y,

yaitu 4y .

(2.3.b). titk data yang ke-4 bergeser ke atas dan jauh dari posisi asalnya

(ditunjukkan dengan bulatan), dan titik ke-4 itu memberikan pengaruh yang besar

pada garis LS, yang sangat berbeda dari garis LS pada gambar (2.3.a) yaitu garis

LS tidak memberikan kecocokan terhadap ke-6 data tersebut.

Sedangkan data outlier pada arah-x, memberikan pengaruh yang sangat

besar pada estimator metode LS karena outlier pada arah-x akan membalikkan

garis LS. oleh karena itu, outlier pada arah-x disebut sebagai titik leverage [3].

Seperti ditunjukkan pada gambar (2.4.a) yang merupakan scatterplot dan garis LS

dari lima titik data 1 1 5 5, ,..., ,x y x y yang hampir terletak pada suatu garis lurus

(garis LS). Misalkan dengan data yang sama akan tetapi titik 1x adalah outlier

yang disebabkan karena suatu kesalahan. Maka, garis LS akan berbalik dari

keadaan yang digambarkan pada gambar (2.4.a), seperti yang ditunjukkan pada

gambar( 2.4.b). Hal ini dapat dijelaskan sebagai berikut: karena 1x terletak jauh,

maka residual 1r dari garis asal (seperti yang ditunjukkan pada gambar 2.4.a)

15

menjadi sangat besar (negatif), berkontribusi terhadap besarnya jumlah 5 2

1 iir

untuk garis tersebut. Oleh karena itu, garis asal tidak dapat dipilih dari prespektif

LS, dan tentunya garis pada gambar (2.4.b) mempunyai nilai 5 2

1 iir

yang

terkecil, karena itu garis asal dibalikkan menjadi garis pada gambar (2.4.b) untuk

mengurangi besarnya nilai 2

1r , bahkan jika keempat bentuk lainnya, 2 2 2 2

2 3 4 5, , ,r r r r ,

sedikit dinaikkan [3].

Secara umum, suatu observasi ,k kx y dikatakan suatu titik leverage

ketika kx terletak jauh dari sebagian besar data observasi ix dalam sampel. Sebagai

catatan, bahwa suatu titik leverage tidak memasukkan nilai ky ke dalam

perhitungan, jadi titik ,k kx y tidak harus perlu menjadi outlier pada regresi.

Ketika ,k kx y dekat terhadap garis regresi yang ditentukan dengan sebagian

besar data, maka hal itu dapat diperkirakan sebagai titik leverage yang bagus

seperti ditunjukkan pada gambar (2.5). Oleh karena itu, untuk mengatakan bahwa

,k kx y adalah suatu titik leverage hanya merujuk pada kepotensialannya

Gambar 2.4 (a). Data asal dengan lima titik dan garis LS-nya. (b).

Data yang sama dengan data (a), tetapi dengan satu data outlier

pada arah-x, yaitu 1x .

16

mempengaruhi secara kuat terhadap koefisien-koefisien regresi (disebabkan

keterpencilannya komponen kx saja). Titik ,k kx y tidak harus dipandang

menyebabkan pengaruh yang besar terhadap koefisien-koefisien regresi, karena

mungkin saja titik ,k kx y tepat pada garis yang ditentukan kecendrungannya

dengan sebagian besar himpunan data lainnya [3].

Dalam regresi berganda, 1,...,i ipx x terletak pada suatu ruang berdimensi p.

Suatu titik leverage tetap didefinisikan sebagai suatu titik 1,..., ,k kp kx x y di mana

1,...,k kpx x merupakan titik-titik yang terpisah dari himpunan data 1,...,i ipx x .

Seperti sebelumnya, suatu titik leverage yang berpotensial berpengaruh besar

pada koefisien regresi LS, bergantung pada nilai aktual dari .ky akan tetapi pada

situasi ini, akan sangat susah mengidentifikasi titik-titik leverage, karena

dimensinya yang tinggi [3].

Gambar 2.5 Titik ,k kx y merupakan titik leverage karena kx terpencil.

Akan tetapi, ,k kx y bukan outlier regresi karena cocok dengan pola

kelineran sebagian himpunan titik data lainnya.

17

2.2.3 Deteksi outlier

Data outlier dapat dikenali dengan pemerikasaan visual dari data mentahnya

(raw) atau dari diagram pencar dari variabel independen dan variabel dependen.

Dalam kasus ketika terdapat lebih dari dua variabel independen, beberapa outlier

mungkin akan sangat sulit dideteksi dengan pemeriksaan visual. Oleh karena itu,

dibutuhkan alat bantu pada pemeriksaan visual dengan menggunakan uji statistik

tertentu yang dikenal dengan regresi diagnostik yang dapat membantu dalam

pendeteksian outlier. Regresi diagnostik merupakan kasus statistik, artinya

mungkin akan terdapat satu nilai dari tiap diagnostik statistik dari tiap n-kasus

dalam himpunan data. Suatu sampel dengan 150 kasus akan menghasilkan 150

nilai dari tiap diagnostik statistiknya, salah satunya merepresentasikan tiap kasus

dalam himpunan data tersebut. Regresi diagnostik statistik digunakan untuk

memeriksa tiga karakteristik yang secara potensial merupakan data outlier.

Pertama adalah leverage: yang menggambarkan seberapa tidak biasanya kasus

tersebut dalam bentuk variabel independnya?. Kedua adalah discrepancy (jarak)

antara nilai prediksi dan nilai observasi pada variabel hasil (Y). Ketiga adalah

influence, yang menggambarkan besaran dari perubahan koefisien regresi jika

outlier dihilangkan dari himpunan data. Secara konseptual, influence

merepresentasikan perkalian dari leverage dan discepancy. Tiap karakteristik ini

harus diperiksa, karena ketiganya mengidentifikasi aspek-aspek yang berbeda dari

data outlier.

18

1. Leverage

Leverage hanya menggambarkan kasus yang terjadi pada variabel

independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh kasus

tesebut dari nilai mean himpunan data variabel independen. Jika hanya terdapat

satu variabel independen, leverage dapat ditentukan sebagai [2]:

2

ii 2

1leverage = h

i XX M

n x

2.5

dengan hii adalah leverage kasus ke-i, n banyaknya data, Xi adalah nilai untuk

kasus ke-i, MX adalah mean dari X, dan 2x merupakan jumlah kuadrat n kasus

dari simpangan Xi dari meannya. Jika kasus ke-i bernilai MX, maka bentuk kedua

dari persamaan di atas akan 0 dan hii akan memiliki nilai kemungkinan yang

minimum, 1

n. Misalkan kasus ke-i skor pada X menjadi jauh dan jauh dari MX,

maka akan menaikkan hii. Nilai maksimum dari hii adalah 1 nilai mean dari

leverage untuk n-kasus dalam suatu sampel adalah 1iihM k n , dengan k

merupakan jumlah variabel independen.

Perhitungan leverage di atas untuk kasus dengan satu variabel independen,

dapat digeneralisasi untuk kasus dengan variabel independen lebih dari satu.

Untuk kasus dengan banyak variabel independen, yang menjadi menarik adalah

seberapa jauh nilai-nilai untuk tiap k variabel untuk kasus ke-i, 1 3, ,...,i i ikX X X ,

dari centroid variabel independen, centroid merupakan mean dari data,

1 2, ,..., kM M M . Penghitungan nilai hii untuk kasus ini dengan menggunakan

persamaan [4]:

19

1

' '

H X X X X 2.6

dengan H merupakan matrik n n dan X merupakan matrik 1n k . Dengan n

merupakan banyaknya data, dan k merupakan jumlah koefisein k variabel

independen ditambah 1 sebagai nilai konstanta 0 . Diagonal dari H berisi nilai-

nilai leverage. Jadi, leverage untuk kasus ke-i, hii, merupakan nilai dari baris ke-i

dan kolom ke-i darai H.

Penentuan nilai yang memiliki leverage yang besar didasarkan pada nilai

cutoff. Nilai hii yang melebihi nilai cutoff dideteksi sebagai outlier. Adapun nilai

cutoff yang telah ditentukan dari [2], adalah 2 1k n untuk data yang banyak

15n , sedangkan untuk data yang sedikit 15n digunakan cutoff

3 1 .k n 1n k . Dengan n merupakan banyaknya data, dan k merupakan

jumlah koefisein k variabel independen ditambah 1 sebagai nilai konstanta

0 .

2. Discrepancy

Diagnostik statistik untuk data outlier yang kedua adalah discrepancy atau

jarak antara nilai prediksi dengan nilai observasi dari variabel dependen (Y), yaitu

î iY Y , yang merupakan nilai dari residual, ie . Pada dasarnya, nilai yang

menjadi outlier menyebabkan nilai residual menjadi besar dan tidak jatuh pada

garis regresi. Nilai discrepancy penghitungannya dengan menggunakan dua

metode yaitu Internally Studentized Residuals dan Externally Studentized

Residuals.

20

Internally studentized residuals menunjukkan satu dari dua hal yang

menyangkut residual mentah (raw). Ekspektasi dari variansi residual untuk kasus

ke-i diekspresikan sebagai [2]:

i residualvariansi e MS 1 iih 2.7

Dengan residualMS merupakan estimasi dari keseluruhan variansi dari residual

sekitar garis regresi = 2 21 1 .R y n k hii merupakan leverage dari

kasus ke-i. standar deviasi dari residualdari kasus ke-i adalah

1ie residual iisd MS h 2.8

Internally studentized residuals merupakan rasio dari besaran nilai residual dari

kasus ke-i dengan standar deviasi dari residual kasus ke-i [2], yaitu:

iInternally studentized residuals

i

i

e

e

sd 2.9

Besar dari Internally studentized residuals berjarak antara 0 dan

1n k . Sungguh tidak menguntungkan, Internally studentized residuals tidak

mengikuti distribusi standar statistk, karena persamaan (2.9) penyebut dan

pembilangnya tidak saling bebas. Jadi Internally studentized residuals tidak bisa

diinterpretasi menggunakan kurva normal atau t tabel. Dengan demikian,

kebanyakan yang lebih disukai dalam menghitung discrepancy adalah dengan

menggunakan Externally Studentized Residuals.

Externally Studentized Residuals merupakan isu yang kedua dalam

perhitungan data yang merupakan outlier. Externally Studentized Residuals

menunjukkan isu ini dengan memisalkan apa yang terjadi jika kasus yang

21

dianggap outlier dihapuskan dari himpunan data. Misalkan Y

i i

nilai perediksi

kasus ke-i, tetapi kasus ke-i dihapuskan dari himpunan data. Outlier berkontribusi

secara substansial terhadap estimasi variansi residual sekitar garis regresi,

.residualMS Sedangkan residual i

MS untuk variansi residual dengan kasus ke-i yang

merupakan outlier dihapuskan dari data. Misalkan id sebagai perbedaan antara

data asli observasi, Y, dengan nilai prediksi untuk kasus ke-i yang berasal dari

himpunan data dengan kasus ke-i dihapuskan, yaitu:

î i i i

d Y Y . Externally

studentized residuals untuk kasus ke-i, it , dihitung sebagai berikut [2]:

i

ii

d

dt

SE 2.10

Paralel dengan Persamaan (2.9), pembilang dari persamaan (2.10)

merupakan residual yang mana untuk kasus ke-i dihapuskan dan penyebut

merupakan standar error dengan kasus ke-i diahapuskan. Residual yang

dihapuskan, id , dapat dihitung dengan menggunakan residual awal, ie , yaitu

dengan

1

ii

ii

ed

h

2.11

dan nilai standar residual juga dapat dihitung dengan:

1i

residual i

d

ii

MSSE

h

2.12

jika persamaan-persamaan di atas dimasukkan ke (2.10), maka it menjadi:

22

1

ii

iiresidual i

et

MS h

2.13

Penentuan nilai outlier berdasarkan nilai Externally studentized residuals

lebih banyak digunakan. Karena jika model regresi cocok dengan data, maka

Externally studentized residuals akan mengikuti distribusi t dengan 1df n k

[2]. Penentuan nilai cutoff –nya berdasrkan distribusi t, jika nilai it lebih besar

dari nilai tabelt dengan derajat kepercayaan , maka data tersebut memiliki nilai

discrepancy yang besar dan dikategorikan sebagai outlier.

3. Nilai Influence

Metode yang ketiga dalam diagnostik statistik untuk mendeteksi adanya

outlier adalah dengan penentuan nilai influence. Ukuran dari influence merupakan

kombinasi dari ukuran leverage dan discrepancy yang menginformasikan

mengenai bagaimana perubahan dari persamaan regresi jika kasus ke-i

dihilangkan dari himpunan data. Dua jenis pengukuran influnece yang biasa

digunakan, pertama adalah ukuran ke-influence-an global, yaitu DFFITS dan

Cook’sD, yang memberikan informasi mengenai bagaimana kasus ke-i

mempengaruhi keseluruhan krarkteristik dari persamaan regresi. jenis yang kedua

adalah ukuran ke-influnece-an khusus, yaitu DFBETAS, yang menginformasikan

mengenai bagaimana kasus ke-i mempengaruhi tiap-tiap koefisien regresi.

umumnya, keduanya dalam pengukuran ke-influence-an harus diperiksa.

Untuk mengukur ke-influence-an global digunakan statistik DFFITS

(kependekan dari difference in fit standardized), dan Cook’sD, seperti externally

studentized residuals, keduanya merupakan aspek yang membandingkan

23

persamaan regresi ketika kasus ke-i dimasukkan dan tidak dimasukkan dalam

perhitungan himpunan data.

Ukuran pertama dalam mengukur ke-influence-an adalah DFFITS, yang

didefinisikan sebagai berikut [2]:

ˆ î i i

i

iiresidual i

Y YDFFITS

MS h

2.14

dengan îY merupakan nilai prediksi ketika kasus ke-i dimasukkan ke dalam

himpunan data,

î i

Y merupakan nilai prediksi ketika kasus ke-i dihapuskan dari

himpunan data, residual i

MS merupakan nilai variansi dari residual ketika kasus

ke-i dihapuskan dari himpunan data dan iih merupakan nilai leverage seperti yang

didefinisikan pada (2.5 dan 2.6). Pembilang pada (2.14) disebut DFFIT, yang

menginformasikan seberapa besar nilai prediksi kasus ke-i akan berubah dalam

unit data observasi Y jika kasus ke-i dihapuskan dari data. Penyebut pada (2.14)

memberikan standardisasi DFFIT sehingga DFFITSi mengestimasi nilai dari

standar deviasi di mana îY , nilai prediksi untuk kasus ke-i, akan berubah jika

kasus ke-i dihapuskan dari data.

Seperti telah disebutkan di atas ukuran ke-influence-an merupakan

perkalian dari leverage dan discrepancy. Oleh karena itu, DFFITS dapat

diekspresikan dengan [2]:

1

iii i

ii

hDFFITS t

h

2.15

24

secara aljabar ekuivalen dengan (2.14). Dengan it merupakan externally

studentized residuals yang didefinisikan pada (2.13) dan iih merupakan leverage

yang didefinisikan pada (2.5 dan 2.6). Jika nilai it dan iih keduanya naik, maka

besar dari DFFITS juga akan ikut naik hal ini menunjukkan kasus tersebut

mempunyai pengaruh yang besar pada hasil analisis redresi. DFFITS = 0 ketika

kasus ke-i persis terletak pada garis regresi sehingga îY tidak mengalami

perubahan ketika kasus i dihapuskan. Jika terletak pada centroid data sampel

masih tetap memberikan beberapa pengaruh (influence), karena nilia minimum

dari iih adalah 1n

. Tanda dari DFFITS akan positif jika

ˆ î i i

Y Y dan negatif

ketika

ˆ î i i

Y Y .

Ukuran kedua untuk mengukur ke-influence-an global pada hasil model

regresi karena kasus ke-i adalah Cook’sD, yang didefinisikan sebagai dengan [2]:

2ˆ ˆ

'1

i i i

i

residual

Y YCook sD

k MS

2.16

dengan îY merupakan nilai prediksi ketika kasus ke-i dimasukkan ke dalam

himpunan data,

î i

Y merupakan nilai prediksi ketika kasus ke-i dihapuskan dari

himpunan data, k merupakan jumlah koefisien model regresi, dan residualMS

merupakan nilai variansi dari residual. Jadi, Cook’sD membandingkan nilai

prediksi dari Y dengan kasus i dimasukkan dan dihapuskan dari data. Penyebut

25

pada persamaan (2.16) di atas memberikan nilai yang distandardisasi. Tidak

seperti DFFITS, Cook’sD akan selalu 0 , tidak bisa negatif.

DFFITS dan Cook’sD dua ukuran yang berhubugan. Oleh karena itu,

DFFITS dan Cook’sD mempunyai persamaan matematik sebagai berikut [2]:

2

'1

residual ii

i

residual

DFFITS MSCook sD

k MS

2.17

DFFITS dan Cook’sD merupakan statisitk dapat saling dipertukarkan,

keduanya dapat digunakan untuk memberikan informasi mengenai ke-influence-

an dari kasus i yang merupakan outlier. Penentuan kasus i sebagai outlier

berdasarkan cutoff masing-masing. Untuk DFFITS, nilai DFFITS (dengan

mengabaikan tandanya) yang besarnya 1 untuk data ukuran kecil 15n dan

sedang dideteksi sebagai outlier. Sedangkan untuk data yang ukuran besar, nilai

DFFITS 1

2k

n

merupakan data outlier. Untuk Cook’sD digunakan nilai

cutoff 1.0 atau dengan nilai kritik dari distribusi F dengan 0.50 dan

1, 1df k n k , jika nilai Cook’sD melebihi nilai kritik dari distribusi F

dideteksi sebagai outlier [2].

BFBETASij merupakan jenis kedua dari ke-influence-an statistik yang

penting jika peneliti ingin memfokuskan pada koefisien regresi tertentu dalam

persamaannya. BFBETASij merupakan perbandingan koefisien-koefisien regresi

ketika kasus ke-i dimasukkan versus tidak dimasukkan pada data.

BFBETASij untuk kasus ke-i didefinisikan sebagai berikut [2]:

26

j i

j j i

ijDFBETASSE

2.18

pada persamaan di atas, pembilang merupakan perbedaan dari koefisien

dengan seluruh data dimasukkan, j , dengan koefisien jika kasus ke-i

dihilangkan, j i

. Penyebut, j i

SE , merupakan standar error dari j i

setelah

data ke-i dihapuskan. Pembagian dengan j i

SE memberikan nilai yang telah

distandardisasi, gunanya untuk mengintrepretasi secara umum pengaruh dari

kasus ke-i untuk semua koefisien regresi. Tiap kasus data akan memiliki (k + 1)

BFBETASij yang berkorepodensi dengan tiap koefisien regresi dalam

persamaannya termasuk intercept 0 .

Penentuan kasus yang memiliki ke-influence-an yang merupakan outlier

berdasarkan BFBETASij adalah kasus yang memiliki 1ijDFBETAS untuk

ukuran sampel yang kecil dan sedang, sedangkan untuk ukuran sampel yang besar

ditentukan dengan cutoff 2

ijDFBETASn

[2].

2.3 Robust Estimasi

2.3.1 M-Estimasi

Suatu estimator yang hampir baik (variansi kecil) untuk berbagai jenis

distribusi, tidak perlu yang terbaik untuk sebarang dari salah satunya., disebut

suatu Robust Estimator. yaitu suatu estimator yang dihubungkan dengan solusi

dari persamaan:

1

0n

i

i

x

2.19

27

1w x jika x k

kjika k x

x

Persamaan (2.19) di atas sering disebut robust M-estimator (dinotasikan

dengan ) karena persamaan (2.19) tersebut dapat dianggap sebagai maksimum

likelihood estimator. Jadi dalam menemukan suatu robust M-estimator harus

dipilih suatu fungsi yang akan memberikan suatu estimator yang baik untuk

tiap distribusi pada himpunan ruang lingkupnya.

Fungsi yang telah dikenal adalah fungsi Huber yang merupakan

kombinasi yang dihubungkan dengan distribusi normal dan distribusi

eksponensial ganda, yaitu [5]:

,

, ,

, ,

x k x k

x k x k

k k x

2.20

yang diturunkan dari fungsi x , dengan fungsi x adalah sebagai berikut

[5]:

2

22x

x jika x kx

k x k jika x k

2.21

Fungsi x berbentuk quadratik pada pusatnya, tetapi naik secara linear

ke takterhingga seperti dapat dilihat pada gambar (2.6). M-estimasi yang

berkorespodensi dengan kasus limit k dan 0k merupakan mean dan

median. Nilai k yang dipilih adalah yang membawa ke asymptotik variansi

(keefesiensian yang diberikan) pada distribusi normal. Persamaan (2.21) di atas

mempunyai fungsi bobot:

28

Dengan fungsi Huber masalah lain muncul, yaitu jika digandakan tiap

1 2, ,..., ,nX X X estimator seperti X dan median juga akan ganda. Salah satu cara

dalam mengatasi kesulitan ini adalah dengan pemecahan yang lain, tetapi sama

hasilnya, yaiut dengan memecahkan persamaan:

1

0n

i

i

x

d

2.22

dengan d merupakan suatu estimasi skala yang robust. Nilai d yang sering

digunakan adalah [6]:

0.6745

i imedian x median xd

2.23

pembagi 0.675 dimasukkan ke dalam definisi Persamaan (2.23) adalah karena d

merupakan suatu estimasi yang konsisten dari jika data sampel munsul dari

distribusi normal [6]. Jadi, dapat di aproksimasi dengan d di bawah asumsi

distribusi normal.

Gambar 2.6 Fungsi Huber dan Fungsi

29

Skema pemilihan d juga memberikan suatu petunjuk dalam pemilihan nilai

k. karena jika data sampel muncul dari distribusi normal, maka dapat diharapkan

kebanyakan nilai-nilai 1 2, ,..., nx x x memenuhi pertidaksamaan [6]:

ixk

d

2.24

kemudian [6]:

i ix x

d d

2.25

Sebagai ilustrasi, jika seluruh nilai-nilai yang memenuhi pertidaksamaan

(2.24), maka Persamaan (2.22) menjadi:

1 1

0n n

i i

i i

x x

d d

2.26

Persamaan (2.2.6) mempunyai pemecahan ,x yang tentu saja yang lebih

diinginkan karena bersesuaian dengan distribusi normal. Karena d

mengaproksimasi , nilai-nilai popular dari k yang digunakan adalah 1.5 dan 2.0

[6], karena dengan pemilihan tersebut kebanyakan variable biasanya akan

memenuhi Pertidaksamaan (2.24).

Selain hal di atas, suatu proses iterasi harus selalu digunakan untuk

memecahkan Persamaan (2.22). salah satu skema yang akan digambarkan adalah

Metode Newton. Misal 0 merupakan estimasi awal dari , seperti

0ˆ

imedian x . Aproksimasi bagian sebelah kiri persamaan (2.22) dengan

kedua awal ekspansi deret Taylor dari 0 untuk didapatkan:

30

'0 00

1 1

ˆ ˆ 1ˆ 0,n n

i i

i i

x x

d d d

2.27

hasil dari (2.24) memberikan estimasi yag kedua dari ,

0

1

1 0

' 0

1

ˆ

ˆ ˆ ,ˆ

ni

i

ni

i

xd

d

x

d

2.28

Persamaan (2.28) disebut langkah pertama dari M-estimasi dari , jika

digunakan 1 pada tempat 0 , didapatkan 2 , langkah kedua M-estiamsi dari .

Proses ini dapat berlangsun sampai mendapatkan sebarang tingkat akurasi yang

diinginkan. Dengan fungsi , penyebut pada bentuk kedua Persamaan (2.28),

yaitu:

' 0

1

ˆ,

ni

i

x

d

khususnya secara mudah dihitung karena ' 1, ,x k x k dan nol

jika lainnya. Jadi penyebut tersebut merupakan penjumlahan sedehana bilangan-

bilangan 1 2, ,..., nx x x sedemikian hingga 0ˆ .ix d k

Selain fungsi dan Huber, suatu fungsi lain yang sering digunakan

juga adalah fungsi dan Bisquare, yang didefinisikan sebagai [5]:

32

1 1

1

x k jika x kx

jika x k

2.29

dengan fungsi Bisquare sebagai berikut:

31

3 56 12 6

1

x x xjika x k

x k k k k k k

jika x k

2.30

Fungsi pada Persamaan (2.29) dan (2.30) digambarkan pada gambar 2.7

berikut:

Disamping fungsi estimasi Bisquare yang telah didefinisikan pada

Persamaan (2.29) dan (2.30) di atas, salah satu fungsi yang serimg digunakan juga

adalah fungsi optimal, yang didefinisikan [5]:

Dan fungsi optimal didefinisikan dengan:

Gambar 2.7 Fungsi Estimasi dan Bisquare

2.31

2

2 4 6 8

2

1 2 3 4

2

3.25 3

1.792 2 3

22

xk jika

k

x x x x xx k h h h h jika

k k k k k

x xjika

k

32

3 5 7

1 2 3 4

0 3

2 3

2

xjika

k

x x x x xx k g g g g jika

k k k k k

xx jika

k

Dengan

11 1

22 2

33 3

44 2

1.944,2

1.728,4

0.312,6

0.016,8

gg h

gg h

gg h

gg h

2.3.2 Trimmed Mean

Pendekatan lain selain M-estimasi dalam mengestimasi lokasi pada data

yang mengandung outlier adalah Trimmed Mean. Dengan Trimmed Mean dalam

data yang mengandung outlier seolah-olah membuang bagain data yang terbesar

dan terkecilnya. Secara jelasnya, misalkan 0,1 2 dan 1m n

dengan [.] menunujukkan bagian bulatnya, dan -Trimmed Mean didefinisikan

sebagai [5]:

( )

1

1

2

n m

i

i m

x xn m

2.33

dengan ix merupakan statistik terurut.

2.32

33

Trimmed Mean secara sepintas seperti menekan atau memadatkan data

observasi. akan tetapi, tidak demikian. Karena hasilnya pada akhirnya merupakan

fungsi untuk seluruh data observasi. Kasus khusus untuk 0 dan 0.5

merupakan mean sampel dan median sampel.

2.3.3 Ukuran ke-Robust-an

Tujuan dari metode robust secara kasar dapat dikatakan adalah untuk

mengembangkan estimasi yang mempunyai suatu kelakuan yang “baik” dalam

suatu “lingkungan” model.

Diantara ukuran yang mengukur ke-robust-an adalah:

1. Influence Function (IF)

Sebelum mendefinisikan IF terlebih dahulu akan didefinisikan dulu kurva

sensitive (sensitive curve (SC)), yaitu: misal 0x suatu outlier yang ditambahkan

kedalam himpunan data, maka SC dari suatu estimasi untuk titik sampel

1,...., nx x adalah perbedaan dari

1 0 1ˆ ˆ,..., , ,...,n nx x x x x ,

yang merupakan fungsi lokasi outlier 0x

Fungsi influence dari suatu estimator merupakan suatu jenis asimptotik

dari SC yang mengaproksimasi kelakuan dari ketika data sampel yang terdapat

bagian kecil dari outlier, yang secara matematik didefinisikan sebagai [5]:

0

ˆ 00

ˆ ˆ1IF ,F lim

xF Fx

2.34

34

0 0ˆ 1 F

.

dengan 0x merupakan titik massa pada 0x , yaitu distribusi yang sedemikian

hingga 0 1P x x dan “ ” merupakan tanda yang menyatakan limit dari

kanan. Jika terdiri dari p parameter-parameter yang tak diketahui, maka

merupakan vektor p-dimensi dan begitu halnya dengan IF-nya.

Kuantitas 0

ˆ 1 xF adalah nilai asimptotik dari estimasi ketika

distribusi yang membangunnya adalah F dan bagian dari outlier sama dengan

0x . Jadi jika kecil kuantitas tersebut dapat diaproksimasi dengan [5]:

0 ˆ 0

ˆ ˆ1 IF ,xF F x F

2.35

dan bias 0

ˆ ˆ1 xF F diaproksimasi dengan ˆ 0IF ,x F

IF dapat dianggap sebagai kasus khusus dari kurva sensitif, dalam

pengertian berikut: ketika ditambahkan observasi yang baru 0x terhadap sampel

1, , nx x bagian yang terkontaminasi adalah 1 1n , dan juga didefinisikan SC

yang distandardisasi, yaitu sebagai berikut:

1 1 0 1

n 0

1 1 0 1

ˆ ˆ, , , , ,SC ,

1 1

ˆ ˆ1 , , , , ,

n n n n

n n n n

x x x x xx

n

n x x x x x

2.36

yang serupa dengan Persamaan (2.34) dengan 1 1n yang

diharapkan adalah jika ix nya i.i.d dengan distribusi F, maka

0 0SC IF ,x x F untuk n yang besar dapat dibuat tepat. Misal untuk tiap 0x ,

35

0SC x merupakan variabel random, dan jika merupakan M-estimasi lokasi

dengan mempunyai batas dan fungsi- yang kontinu, atau merupakan trimmed

mean, maka untuk tiap 0x [5]

ˆ0 . . 0SC IF ,n a sx x F

2.36

dengan “a.s.”merupakan kekonvergenan dengan probabilitas 1 (“almost

sure” convergen). Hasil ini diperluas untuk M-estiamasi lokasi yaitu:

0

ˆ 0 '

ÎF ,

ˆ

xx F

E x

, 2.37

dan untuk M-estimasi skala adalah:

0

ˆ 0 '

ˆÎF ,

ˆ ˆ

xx F

E x x

. 2.38

2. Breakdown point (BP)

Breakdown point suatu titik estimasi dari parameter adalah kuantitas

terbesar dari keterkontaminasian (proporsi dari outlier) yang terdapat dalam data

sedemikian hingga tetap memberikan informasi mengenai , mengenai

distribusi dari titik-titik yang bukan outlier dalam himpunan data tersebut.

Misal merentang atas suatu himpunan . Kelayakan dari estimasi

untuk memberikan informasi mengenai yang terkontaminasi harusnya tidak

dapat mengantarkan ke tak terhinggaan atau terhadap batas dari , jika

tidak kosong. Sebagai contoh, untuk skala atau sebaran parameter didapatkan

36

0, , dan estimasi harus tetap terbatas, dan juga terbatas jauh dari 0, dalam

pengertian bahwa jarak antara dan 0 harus lebih besar dari suatu nilai positif.

Menurut [5] suatu asimptotik kontaminasi BP dari suatu estimasi pada F,

dinotasikan * ˆ, ,F adalah nilai * 0,1 sedemikian hingga untuk * ,

ˆ 1 F G sebagai suatu fungsi dari G yang tetap terbatas, dan juga

terbatas dari batas . Definisi tersebut bermaksud bahwa terdapat suatu batas dan

himpunan yang tertutup K sedemikian hingga K (dengan

merupakan batas dari ) sedemikian hingga

*ˆ 1 dan .F G K G 2.39

37

BAB III

ROBUST ESTIMASI PADA REGRESI

3.1 Least trimmed square (LTS)

Sebelum membahas mengenai least trimmed square (LTS), akan

diketengahkan dahulu sifat-sifat ke-equivariant- an yang harus dimiliki oleh suatu

estimator ( penggunaan kata “equivariant” dalam statistic merujuk pada

transformasi sebagaimana mestinya, dan kata lawannya yaitu invariant merujuk

pada kuantitas yang tetap tidak berubah), yaitu: regresi equivariant, skala

equivariant, dan affine equivariant.

Suatu estimator T disebut sebagai regresi equivariant jika memenuhi:

, ; 1,...., , ; 1,...., ,i i i i iT y i n T y i n x x v x v 3.1

dengan v merupakan sebarang vektor kolom. Suatu estimator T disebut sebagai

skala equivariant jika memenuhi:

, ; 1,...., , ; 1,...., ,i i i iT cy i n cT y i n x x 3.2

untuk sebarang konstanta c. skala equivariant menyebabkan bahwa kecocokan

secara esensial independen dari pemilihan satuan pengukuran pada variabel

respons y. Sedangakan, suatu estimator T adalah affine equivariant jika

memenuhi:

1, ; 1,...., , ; 1,...., ,i i i iT y i n T y i n x A A x 3.3

untuk sebarang matrik persegi A yang nonsingular . dengan kata-kata, affine

equivariant berarti bahwa suatu transformasi linear dari ix yang harus

38

mentransformasikan estimator T , karena 1ˆ .i i iy T T x x A A Hal ini

memperbolehkan penggunaan system koordinat lain dari variabel eksplanatori,

dengan tanpa mempengaruhi pengestimasian îy .

Dari [3] dinyatakan suatu teorema yang menyatakan bahwa:

Teorema 3.1. Sebarang regresi equivariant dari estimator T memenuhi:

* , 2 1n T Z n p n

pada seluruh sampel Z.

Menurut [3] least trimmed square didefinisiskan sebagai:

2

ˆ1 :

minh

i i n

r

3.4

dengan sebelumnya menyusun residual kuadrat dari yang terkecil sampai dengan

yang terbesar, yaitu:

2 2 2

1: 2: :...

n n n nr r r

kemudian menambahkan hanya bentuk h yang pertama dari bentuk-bentuk ini.

Dengan 2 1h n , sehingga LTS akan memiliki breakdown point yang sama

dengan 2 2n p n [Rousseeuw] dengan p merupakan jumlah variabel

independen dan notasi [] menyatakan bagian bilangan bulat terbesar yang kurang

dari atau sama dengan bilangan bulat tersebut. Selain itu, untuk

2 1 2h n p LTS yang mungkin mencapai nilai maksimum dari

39

teorema 3.1 di atas. Sebelum memerikasa sifat-sifat ke-robust-an dari LTS, akan

dijelaskan dahulu ke-equivariant-an dari LTS, yaitu sebagai berikut:

Lemma 3.1 Suatu estimator LTS merupakan regresi, skala, dan affine

equivariant.

Bukti. Regresi equvariant seperti yang telah dinyatakan pada (3.1-3.3),

maka untuk LTS regresi equivariant berdasarkan kesamaan sebagai berikut:

2 2

1 1: :

,h h

i i i i i

i ii n i n

y y

x v x v θ x θ

untuk sebarang vektor kolom v . Untuk skala dan affine equivariant dibuktikan

sama seperti di atas.

Sifat ke-robust-an dari LTS didasarkan pada breakdown point-nya, yang

didefinisikan [3]:

Nilai breakdown point dari metode LTS yang didefinisikan pada (3.4)

dengan sama dengan:

* , 2 1 .n T Z n p n 3.5

Bukti. Dalam usaha membuktikannya diasumsikan bahwa semua observasi

dengan 1, , 0i ipx x dihapuskan dan observasi-observasinya merupakan dalam

kedaan umum. Yang dimaksud dengan kedaan umum adalah jika sebarang p dari

variabel independen menentukan θ secara unik

Langkah pertama adalah dengan menunjukkan bahwa

* , 2 1n T Z n p n karena sampel , ; 1,...,i iZ y i n x terdiri dari

n titik dalam kondisi yang umum, hal ini akan memenuhi:

2 1 2h n p

40

yang merupakan selalu positif, dengan V adalah himpunan dari semua x dengan

jarak terhadap V tidak lebih dari , Andaikanθ meminimumkan (3.4) untuk Z,

dan dinotasikan dengan H yang berkorespodensi dengan hyperplane yang

diberikan dengan persamaan .y xθ diberikan max ,i iM r dengan .i i ir y x θ

sekarang akan dikonstruksikan sebarang sampel terkontaminasi

' ' ', ; 1,....,i iZ y i n x dengan menyimpan 2 1 2n n p n p

observasi-observasi dari Z dan dengan menggantikan yang lainnya dengan nilai-

nilai yang berubah-rubah. Hal ini cukup untuk membuktikan bahwa 'θ -θ

terbatas, dengan 'θ berkorepodensi terhadap 'Z yang dinotasikan dengan H

’, jadi

hyperpalne H’ yang berkorespodensi merupakan hal yang berbeda dari H. tanpa

kehilangan keumumannya diasumsikan bahwa ' ,θ θ karena itu, 'H H. Dengan

teorema dimensi dari aljabar linear, irisan dari 'H H mempunyai dimensi 1.p

jika 'H Hpr merupakan proyeksi vertical dari 'H H terhadap 0 ,y

berdasarkan hal itu, paling banyak 1p dari ix yang bagus (bukan outlier) dapat

terletak pada 'H H .pr

Sekarang didefinisikan A sebagai himpunan

observasi-observasi bagus yang tersisa. Sekarang misalkan sebarang ,a ayx

termasuk di A, dan a a ar y x θ dan ' '.a a ar y x θ konstruksikan vertikal plane

2-dimensi Pa melalui ,a ayx dan tegak lurus terhadap 'H H .pr sebelumnya

1inf 0; terdapat suatu 1 dimensi subruang dari 0 ,sedemikian

2

hingga meliputi sekurang-kurangnya dari i

p y

p

V

V x

41

akan dikonstruksikan nilai residual pada Pa yaitu sebagai berikut [3]:

i i i i ir y y x θ x θ dengan tan ,i x θ dengan merupakan sudut

dalam 2, 2 yang dibentuk antara H dengan garis horizontal pada Pa . Oleh

karena itu, merupakan sudut antara garis tegak lurus terhadap H dan 0,1 ,

karena itu:

'

2

,1 0,1 1arccos arccos

,1 0,1 1

θ

θ θ

dan akhirnya didapat tan . θ

Berdasarkan hal itu, maka:

' ' '

'

'

tan tan

tan tan

,

a a a ar r

x θ x θ

θ θ

karena

2 2 ' ' ' 'θ -θ θ θ θ θ θ θ θ θ

berdasarkan pertidaksamaan di atas didapat:

' 2 ,a ar r 'θ -θ θ

dengan ar dan '

ar adalah residual yang berhubungan dengan H dan H’

berkorespodensi dengan titik , .a ayx Sekarang jumlah dari h residual kuadrat

pertama dari sampel baru Z’ yang berhubungan dengan θ yang terdahulu, dengan

sekurang-kurangnya 1 2n p h dari residual-residual ini menjadi sama

42

seperti sebelumnya, yaitu kurang dari atau sama dengan 2.hM karena 'θ

berkorespodensi dengan Z’ berdasarkan hal itu juga didapatkan

2' ' ' 2

1 :

.h

i i

i i n

y hM

x θ

jika sekarang diasumsikan bahwa

2 1 ,M h 'θ -θ θ

maka, untuk semua a di A memenuhi

' ' 2 1 ,a ar r M h θ θ θ

jadi

' ' 1 .a a a ar r r r M h M M h

Sekarang perhatikan bahwa 1.n A h

oleh karena itu, himpunan h

dari ' ',i iyx

harus terdiri sekurang-kurangnya satu dari , ,a ayx

jadi

2 2

' ' 2

1 :

,h

i i a

i i n

y r hM

' 'x θ

suatu kontradiksi. Ini menyebabkan bahwa

2 1M h 'θ θ θ

untuk semua sampel 'Z .

Langkah kedua adalah mendapatkan Pertidaksamaan sebaliknya yaitu

* , 2 1n T Z n p n yang segera didapatkan berdasarkan teorema 3.1

dan lemma 3.1

43

Cara lain menginterpretasikan Persamaan (3.5) adalah dengan mengatakan

bahwa T akan tetapi terbatas jika lebih dari 1

12

n p observasi tidak

terkontaminasi. Nilai dari h menghasilkan nilai yang maksimum dari breakdown

point. Di lain sisi, jumlah observasi yang jelek n A harus tetap kurang dari h

dan 1A p harus sekurang-kurangnya h. nilai yang terbaik dari h adalah

kemudian diperoleh dengan meminimumkan A atas h yang terletak pada

1A n h dan 1 ,A h p yang menghasilkan 2 1 2 .h n p pada

umumnya, h mungkin bergantung pada beberapa proporsi trimming , umpanya

dengan 1 1h n p atau 1 1.h n Maka dengan

breakdown point *

n sama dengan proporsi ini. Untuk mendekati 50%, maka

akan didapatkan LTS estimator, sedangkan untuk mendekati 0%, maka akan

didapatkan LS estimator [3].

Suatu LTS estimator juga akan memenuhi sifat kecocokan yang tepat,

yang dinyatakan sebagai berikut[3]:

Jika terdapat beberapa θ sedemikian hingga cenedrung (strictly) lebih dari

12

1n p dari suatu observasi yang memenuhi i iy x θ secara tepat dan dalam

posisi yang umum, maka penyelesaian LTS sama dengan θ apapun bentuk

observasinya.

LTS mempunyai kekonvergenan 1

2n

, dengan efesiensi keasimptotikan

terhadap distribusi normal seperti M-estimator yang didefinisikan dengan [3]:

44

1, 1 2

0, lainnya,

x xx

3.6

Persamaan (3.6) disebut tipe-Huber skipped mean dalam kasus estimasi

lokasi sama dengan yang didefinisikan pada Persamaan (2.20).

Langkah-langkah penentuan estimasi dengan menggunkan LTS

dapat dijelaskan sebagai berikut:

1. Bentuk subsampel dengan tiap subsampel ini terdiri dari

h observasi.

2. Untuk tiap subsampel dihitung:

3. Hitung jumlah kuadarat dari tiap subsampel:

4. Solusi yang dipilih adalah yang memberikan nilai paling

kecil.

1n h

1

:

1

1

:

1

1

.

.

.

1

h

i n

i

nn h

i n

i n h

y yh

y yh

21 1

:

1

21 1

:

1

.

.

.

h

i n

i

nn h n h

i n

i n h

SQ y y

SQ y y

jy j

SQ

45

3.2 MM-Estimasi

Pendekatan estimasi robust regresi dengan ix dan iy yang mungkin

terdapat outlier adalah dengan menggunkan suatu M-estimasi yang

didefinisikan sebagai [5]:

1

ˆ

minˆ

ni

i

r

3.7

dengan suatu yang terbatas dan suatu permulaan skala yang memliki

breakdown point yang tinggi. Skala akan dibutuhkan untuk memenuhi syarat-

syarat tertentu yang akan didiskusikan kemudian. Jika mempunyai turunan ,

maka,

0

0ˆ

ni

i

i

r

x 3.8

dengan adalah redescending (non-monoton). Menyebabkan pengestimasian

pada Persamaan (3.7) mungkin memiliki banyak solusi dikarenakan memiliki

minum lokal dari fungsi pada sisi kiri Persamaan (3.7), dan umumnya hanya satu

solusi (solusi terbaik) yang menyebabkan minimum global dari yang

didefinisikan pada (3.7). salah satu metode yang digunakan untuk

mengaproksimasi yang didefinisikan pada (3.7) adalah metode MM-estimasi.

Metode MM-estimasi didefinisikan kedalam tiga langkah. Langkah

pertama adalah menghitung estimasi ˆ *β yang memiliki breakdown point yang

tinggi, misalnya LTS atau least median square (LMS) . dalam langkah pertama ini

46

tidak diperlukan robust estimator yang efesien. Langkah kedua adalah

menghitung suatu M-estimasi skala dengan 50% breakdown point yang

dihitung dari residual *îr β dari estimasi robust yang cocok pada langkah awal.

Langkah terakhir, mencari solusi dari persamaan (3.8), yang memenuhi:

*ˆ ˆS Sβ β 3.9

dengan

1

ˆˆ

ˆ

ni

i

rS

Sekarang akan dijelaskan secara detail langkah-langkah di atas. Estimasi

awal yang robust 0 harus regresi, skala dan affine equivariant yang telah

didefinisikan di subbab 3.1 di atas, yang memastikan bahwa memberikan sifat-

sifat yang sama. Salah satu estimasi yang akan dibahas adalah estimasi

berdasarkan pada robust skala residual. Yang didefinisikan sebagai berikut: misal

ˆ ˆ r merupakan suatu skala equivariant dari robust estimasi skala yang

berdasarkan pada suatu vektor residual

1 ,..., .nr r r 3.9

Maka suatu regresi esrimasi dapat difenisikan sebagai:

ˆ ˆmin .

r 3.10

47

Estimasi demikian merupakan regresi, skala, dan affine equivariant, dan

disebut sebagai S-Estimasi [3].

Sebaraan r didefinisikan sebagai solusi dari [3]:

1

1

ˆ

ni

i

rK

n

3.11

Dengan K disamakan dengan ,E dengan merupakan normal

standar. Dengan fungsi harus memenuhi kondisi di bawah ini [5]:

(S1). merupakan simetrik dan terdiferensial secara kontinu, dan

0 0.

(S2). Terdapat 0c sedemikian hingga merupakan cendrung naik pada

0,c dan konstan pada , .c

Jika terjadi lebih dari satu penyelesaian pada (3.11), maka jadikan

r sama dengan supremum dari himpunan penyelesaiannya; ini artinya

ˆ ˆ ˆsup ; 1 .in r K r jika tidak terdapat penyelesaian pada

(3.11), maka jadikan r = 0.

Karena kondisi (S2), 'x x akan selalu nol dari nilai x tertentu,

jadi merupakan fungsi redescending. Fungsi yang demikian contohnya adalah

fungsi Biweight Tuckey’s yang didefinisikan [5]:

2 4 6

2 4

6

untuk 2 2 6

untuk .6

x x xx c

c cx

cx c

3.12

48

Persamaan (3.12) sama dengan yang dinyatakan pada Persamaan (2.29),

fungsi yang lain yang bisa digunakan adalah fungsi yang dinyatkan pada (2.31)

Untuk menunjukkan breakdown point dari S-estimator adalah 50%, di

mana suatu kondisi tambahan pada fungsi dibutuhkan, yaitu:

(S3).

1

2

K

c

Kondisi ini mudah dipenuhi. Pada kasus (3.27) dengan ,K E

diterima dengan menggunkan 1.547c .

Berikut adalah lemma dan beberapa teorema yang diturunkan dari (S1)

sampai dengan (S3), yaitu sebagai berikut:

Lemma 3.3.1. untuk tiap memenuhi kondisi (S1)-(S3) dan untuk tiap n,

terdapat konstanta positif dan sedemikian hingga estimator yang

diberikan (3.11) memenuhi:

1i

ˆmed ,..., med .i n ii

r r r r

Di sini imed atau 1ˆ ,..., nr r mungkin nol.

Teorema 3.3.1. untuk setiap yang memenuhi (S1)-(S3), selalu terdapat suatu

solusi terahadap (3.25).

Teorema 3.3.2. suatu S-estimator yang dibentuk dari suatu fungsi yang

memnuhi (S1)-(S3) memiliki breakdown point

* 2 2n n p n

49

untuk sebarang sampel , ; 1,....,i iy i nx dalam posisi umum.

Teorema 3.3.2 menyebabkan bahwa jika terdapat beberapa β sedemikian

hingga sekurang-kurangnya 2 1n n p dari titik-titik yang memenuhi

i iy x β secara tepat dan pada posisi yang umum, maka S-estimasi untuk vektor

regresi akan sama dengan β apapun observasi yang lainnya.

Jika kondisi (S3) diganti dengan

,

K

c

dengan 12

0 , maka S-estimator yang berkorespodensi mempunyai

breakdown point cendrung terhadap * ketika n . Jika hal itu

diasumsikan bahwa K E dalam usaha untuk mendapatkan suatu estimasi

skala yang konsisten terhadap residual yang terdistribusi normal. Disamping

resistansinya yang tinggi terhadap data yang terkontaminasi , S-estimator juga

berkelakuan baik ketika data tidak terkontaminasi. Untuk melihat hal ini, akan

dilihat keasimptotikan kelakuan S-estimator pada model Gaussian, dengan

,i iyx merupakan variabel random i.i.d yang memenuhi

0 ,i i iy e x β 3.13

ix mengikuti suatu distribusi H, dan ie independen terhadap ix dan berdistribusi

0e untuk 0 0 . Sebelum melihat keasimptotikan kenormalan dari S-

estimasi akan diketengahkan dulu teorema yang menjamin kekonvergenan dari

estimator S-estimasi, yaitu sebagai berikut:

50

Teorema 3.3.3. misal merupakan suatu fungsi yang memenuhi (S1) dan (S2),

dengan turunan ' . asumsikan bahwa:

1. u u tidak naik untuk 0u ;

2. ,HE x dan H merupakan suatu kepadatan.

Misal ,i iyx i.i.d yang yang memenuhi model pada (3.28), dan misalkan

ˆnβ merupakan penyelesaian dari (3.25) untuk titik n yang pertama, dan

1ˆ ˆˆ ˆ ,...., .n n n nr r β β jika n maka

0. .

ˆn

a sβ β

dan

0. .

ˆn

a s

dengan a.s. menyatakan selalu konvergen (absolutely converge).

Selanjutnya akan ditunjukkan keasimptotikan kenormalan dari S-

estimator, yang dinyatakan dalam sebuah teorema, yaitu sebagai berikut:

Teorema 3.3.4. dengan tanpa kehilangan keumumannya misalkan 0 0β dan

0 1 . Jika kondisi dari teorema 3.3.3 terpenuhi dan

1. terdiferensial pada seluruh titik tetapi terhingga, maka ' dan

' 0;d

2. E t

H x x merupakan nonsingular dan 3

,E H

x maka:

51

12

212 '

0n 0,n N E d d

tβ β x xL

dan

12

2

0 2n 0, .n

y E d yN

y y d y

L

Karena teorema 3.3.4, maka dapat dihitung keasimptotikan keefisiensian e

dari S-estimator yag berasal dari fungsi yang didefimisikan pada (3.12) untuk

nilai-nilai breakdown point * yang berbeda-beda. Seperti yang ditunjukkan pada

table di bawah ini:

Tabel 3.3.1. Efisiensi Asimptotik S-Estimator untuk Nilai-nilai *

yang Berbeda-beda, dengan Menggunakan Fungsi Biweight Tuckey’s

* e c K

50% 28.7% 1.547 0.1995

45% 37.0% 1.756 0.2312

40% 46.2% 1.988 0.2634

35% 56.0% 2.251 0.2957

30% 66.1% 2.560 0.3278

25% 75.9% 2.937 0.3593

20% 84.7% 3.420 0.3899

15% 91.7% 4.096 0.4194

10% 96.6% 5.182 0.4475

Dari tabel 3.3.1 di atas terlihat bahwa nilai-nilai c yang lebih besar dari

1.547 menghasilkan keasimptotikan efisiensi yang bagus terhadap model utama

Gaussian, tetapi mempunyai breakdown point yang kecil.

52

BAB IV

APLIKASI MODEL

4.1 Aplikasi Pada Regresi Sederhana

Data yang digunakan adalah data perusahaan asuransi pensiunan Belanda

dari 18 cabang perusahaan. Data ini terdiri dari data yaitu: pendapatan premi yang

merupakan variabel independen dan premi cadangan yang merupakan variabel

dependen.[3]

Data terlampir pada lampiran I.

4.1.1 Pemeriksaan Outlier

Sebelum menganalisis menggunkan regresi akan diperiksa terlebih dahulu

apakah dalam data tersebut terdapat outlier pada arah-y atau arah-x atau ada pada

keduanya.

a. Pemeriksaan Leverage

Leverage disebabkan adanya data outlier pada arah-x, deteksi yang digunakan

adalah dengan melihat nilai hii dan dengan membandingkan nilai centroidnya.

Data yang lebih besar dari nilai centroid (mean) variabel independen dan nilai hii

yang melebihi nilai cutoff 3 1k n dengan k merupakan banyaknya variabel

independen dan n adalah banyaknya data, digolongkan sebagai data yang tidak

biasa (outlier). Mean dari data dana pensiun adalah 176.0222, dan nilai cutoff dari

nilai h adalah 0.33. untuk data dana pensiun didapatkan lima data pertama dari

nilai centroid dan nilai-nilai h-nya ditabelkan pada 4.2, sebagian data lainnya

dilampirkan.

53

Tabel 4.2 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada

arah-x

Untuk menentukan mana yang menjadi nilai leverage akan dihipotesisikan

bahwa

H0: ℎi ≤ 𝑐𝑢𝑡𝑜𝑜𝑓, 𝑚𝑎𝑘𝑎 �؆𝑢𝑘𝑎𝑛 𝑑𝑎𝑡𝑎 𝑜𝑢𝑡𝑙𝑖𝑒𝑟

H1: ℎ𝑖 > 𝑐𝑢𝑡𝑜𝑓𝑓, 𝑚𝑎𝑘𝑎 𝑑𝑎𝑡𝑎 𝑚𝑒𝑟𝑢𝑝𝑎𝑘𝑎𝑛 𝑜𝑢𝑡𝑙𝑖𝑒𝑟

Dari perhitungan didapatkan bahwa data ke-18 mempunyai h18 yaitu

0.873729, melebihi nilai cutoff-nya yaitu 0.33. oleh karena itu, H0 ditolak utnuk

data ke-18, artinya data ke-18 merupakan outlier. sedangkan untuk sisa data yang

lain nilai dari hi kurang dari nilai cutoff yang ditentukan. Pemeriksaan data outlier

dengan penntuan nilai hi dilampirkan. Untuk lebih jelasnya disajikan gambar

(4.1), yang menyajikan leverage dan variabel independen

No x y centroid hii cutoff

1. 10.4 272.2 176.02 0.070383 0.33

2. 15.6 212.9 176.02 0.069467 0.33

3. 16.2 120.7 176.02 0.069363 0.33

4. 17.9 163.6 176.02 0.069071 0.33

5. 37.8 226.1 176.02 0.065883 0.33

x

lev

era

ge

1400120010008006004002000

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

index plot leverage Vs. data independen

Gambar 4.1 indeks plot leverage Vs. data variabel

independen (xi)

54

b. Pemeriksaan Outlier pada Arah-y (Nilai Discrepancy)

Nilai discrepancy merupakan jarak antara nilai prediksi dengan nilai

observasi variabel dependen, yaitu î iY Y , yang merupakan nilai dari residual,

ie . nilai yang menjadi outlier menyebabkan nilai residual menjadi besar dan tidak

jatuh pada garis regresi. Nilai discrepancy penghitungannya dengan menggunakan

dua metode yaitu Internally Studentized Residuals dan Externally Studentized

Residuals. Pemeriksaan data outlier pada arah-y pada tugas akhir ini hanya akan

digunakan dengan metode Externally Studentized Residuals (ti). Penentuan nilai

outlier berdasarkan nilai Externally studentized residuals berdasarkan Penentuan

nilai cutoff –nya yang mengikuti distribusi t dengan 1.df n k jika nilai it

lebih besar dari nilai tabelt dengan derajat kepercayaan 𝛼 2 , maka data tersebut

memiliki nilai discrepancy yang besar dan dikategorikan sebagai outlier. Dan

diberikan hipotesis:H0: −𝑡𝑡𝑎𝑏𝑒𝑙 ≤ 𝑡𝑖 ≤ 𝑡𝑡𝑎𝑏𝑒𝑙 ,𝑚𝑎𝑘𝑎 �晦�𝑢𝑘𝑎𝑛 𝑑𝑎𝑡𝑎 𝑜𝑢𝑡𝑙𝑖𝑒𝑟

H1: 𝑡𝑖 > 𝑡𝑡𝑎𝑏𝑒𝑙 𝑎𝑡𝑎𝑢 𝑡𝑖 < 𝑡�㡣𝑎𝑏𝑒𝑙 ,𝑚𝑎𝑘𝑎 𝑑𝑎�〰�𝑎 𝑚𝑒𝑟𝑢𝑝𝑎𝑘𝑎𝑛 𝑜𝑢𝑡𝑙𝑖𝑒𝑟

Untuk data dana pensiun di atas Penentuan nilai outlier berdasarkan nilai

Externally studentized residuals, dengan nilai ttabel = 2.120 pada 𝛼 2 =

0.05 2 = 0.025 disajikan lima data pertama dalam table 4.3, untuk data yang

lainnya dilampirkan.


arah-y No x y Externally studentized residuals (ti) t0.025,16 Jenis data

1. 10.4 272.2 -0.52552 2.120 Bukan

2. 15.6 212.9 -0.63674 2.120 Bukan

3. 16.2 120.7 -0.76284 2.120 Bukan

4. 17.9 163.6 -0.71694 2.120 Bukan

5. 37.8 226.1 -0.76536 2.120 Bukan

55

Dari tabel 4.3 di atas nilai Externally studentized residuals yang lebih dari

ttabel adalah data ke-15 dan data ke-18 dengan masing-masing nilai Externally

studentized residuals adalah 3,058 dan -4,90717. Oleh karena itu, H0 pada kedua

data ini ditolak artinya kedua data tersebut merupakan outlier.

Deteksi outlier yang selanjutnya adalah dengan melihat nilai dari jarak

Cook’s dan DFFITS (kependekan dari difference in fit standardized), yang

digunkan untuk mendeteksi adanya outlier yang menjadi nilai influence. Ukuran

dari influence merupakan kombinasi dari ukuran leverage dan discrepancy yang

menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika

kasus ke-i dihilangkan dari himpunan data. Penentuan nilai DFFITS dan Cook’s.

Jika nilai DFFITS dan Cook’s 1 atau < -1 maka dikategorikan sebagai outlier.

Pendeteksian outlier dengan DFFITS dan Cook’s menghasilkan data ke-18

sebagai outlier ke-18 sebagai outlier dengan nilai DFFITS = -12.9082 yang

kurang dari nilai cutoff , -1, dan Cook’s distance = 34.1087 yang lebih dari nilai

cutoff, 1, untuk pendeteksian data yang lainnya terlampir.

Dari pendeteksian leverage, nilai discrepancy, nilai DFFITS dan Cook’s

didapatkan data outlier yaitu: data ke-15 yang merupakan outlier pada arah-y dan

data ke-18 yang merupakan nilai leverage dan yang meberikan nilai influence

terhadap model regresi.

4.1.2 Analisis Regresi

a. Metode Least Square

Penerapan metode least square pada data dana pensiun dari perusahan

asuransi Belanda di atas menghasilkan persamaan model:

ˆ = 632.301 + 5.018 y x (4.1)

56

RESI1

Pe

rce

nt

200010000-1000-2000

99

95

90

80

70

60

50

40

30

20

10

5

1

Mean

<0.010

-5.05275E-13

StDev 771.3

N 18

KS 0.241

P-Value

Probability Plot of RESI1Normal

Gambar 4.3 Distribusi Normal dari Residual Data Dana

Pensiunan

x

y

1400120010008006004002000

8000

7000

6000

5000

4000

3000

2000

1000

0

18

17

1615

14

1312

1110

9

8

7

6

54321

Scatterplot of y vs x

Persamaan (4.1) dapat digambarkan sebagai berikut:

Garis least square dari data dana pensiunan sangat dipengaruhi oleh data ke-

18, seperti dapat dilihat pada gambar (4.2) di atas, garis LS tidak melwati

sebagian besar data, tetapi, lebih menuju ke data18. Dan nilai estimasi skala

residual yang menunjukkan ke-fit-an garis LS terhadap data sebesar 795,1.

Dengan metode LS variabel independen dapat menjelaskan variabel dependen

koefisien R sebesar 82,16%. Akan tetapi, persamaan (4.1) tidak memenuhi

asumsi dari metode LS yaitu asumsi kenormalan residual, seperti dapat dilihat

pada gambar berikut ini:

Gambar 4.2 Scatterplot dan Garis Least Square dari Data

Dana Pension

57

0 200 400 600 800 1000 1200 1400

x

0

4000

8000

12000

y

Gambar 4.4 Garis LTS untuk Data Dana Pensiunan

Distribusi dari residual data pensiunan tidak memenuhi asumsi kenormalan.

Hal ini dapat ditunjukkan dengan gambar (4.3) dan dengan uji kenormalan

kolomorgov-semirnov, nilai dari P-value bahwa data normal hanya 0.001, kurang

dari tingkat siginfikansi = 0.05. oleh karena itu, persamaan tersebut tidak dapat

digunakan untuk analisis regresi dari data dana pensiunan dari ke-18 cabang

perusahaan asuransi Belanda.

b. metode Least Trimmed Square (LTS)

Analisis regresi untuk data dana pensiunan karena tidak dapat menggunakan

metode LS, maka akan digunakan metode lain yang Robust terhadao kehadiran

outlier yaitu data ke-15 dan data ke-18. Persamaan model yang didapatkan dari

metode LTS adalah:

ˆ =181.6062+8.9183y x (4.2)

Persamaan dari (4.2) dapat digambarkan sebagai berikut:

58

Dari gambar (4.4) di atas garis LTS melewati keabanyakan titik data dan

mengabaikan pengaruh dari titik ke-18. Persamaan (4.2) jika dibandingkan

dengan persamaan (4.1) maka, pada persamaan (4.2) 0 atau intercept-nya adalah

181,6062, sedangkan pada persamaan (4.1) nilainya adalah 632,301. Sangat besar

sekali, karena pada persamaan (4.1) sangat dipengaruhi oleh outlier, sedangkan

pada (4.2) tidak terpengaruh. Untuk persamaan (4.2) nilai koefisien, 1 , adalah

8,9183, sedangkan pada persamaan (4.1) adalah 5,018. Dengan metode LTS nilai

koefisien R-square adalah 90,37% lebih besar dari R-square dengan

menggunakan metode LS. Dan nilai estimasi skala residual dari LTS adalah

354,2, nilai yang sangat kecil jika dibandingkan dengan estimasi skala yang

dihasilka oleh metode LS. Tidak seperti metode LS yang harus memenuhi

beberapa asumsi, metode LTS tidak perlu memenuhi asumsi seperti asumsi pada

metode LS. metode LTS memilik breakdown point yang tinggi, yaitu 50%, artinya

persamaan (4.2) tetap akan memberikan kecocokan data yang tepat walupun data

outliernya hampir setengahnya dari keseluruhan data.

c. Metode MM-Estimasi

Metode yang selanjutnya adalah MM-estimasi dengan menggunakan S-

estimasi sebagai initial estimasinya. Persamaan yang dihasilkan dengan metode

ini adalah:

ˆ 126.8782 8.4298y x (4.3)

Persamaan (4.3) digambarkan sebagai berikut:

59

0 200 400 600 800 1000 1200 1400

x

0

2000

4000

6000

y

Dari gambar (4.5) di atas garis MM-estimasi melewati garis ke-18 dan tetap

memberikan kecocokan terhadap data yang lainnya. Persamaan (4.3) mempunyai

konstanta, 0 , adalah 126,8782 lebih kecil dari dua metode sebelumnya, dan nilai

koefisien, 1 , adalah 8,4298 yang juga lebih kecil dari metode LTS. Dengan

metode MM-estimasi niali koefisien R2 adalah 71,7% , nilai yang lebih kecil dari

kedua metode sebelumnya. Metode MM-estimasi dengan S-estimasi sebagi

estimasi awal mempunyai breakdown point yang tinggi yaitu 50% sama seperti

metode LTS dan dengan keefisiensian terhadap distribusi normal sekitar 85%.

Gambaran perbandingan yang lengkap diberikan oleh tabel 4.4 berikut ini:

Table 4.4 perbandingan nilai-nilai intercept, koefisien, skala estimasi, dan R2

dari metode LS, LTS dan MM-estimasi.

No Metode Regresi Intercept Koefisien Estimasi Skala Residual R2

1. LS 632,301 5,018 795,1 81,15%

2. LTS 181,6062 8,9183 354,2 90,37%

3. MM-estimasi 126,8782 8,4298 395 71,7%

Gambar 4.5 garis MM-estimasi untuk Data Dana Pensiunan

60

4.2 Aplikasi Pada Regresi Berganda

Data yang digunakan adalah data yang diperoleh dari [7] yang terdiri dari

empat variabel independen yaitu: blood clotting (pembekuan darah(x1)),

prognostic index (x2), enzyme function test (x3), liver function test (x4), dan variabl

dependennya adalah survival time. Data berjumlah 54 buah. Pada tabel 4.5 adalah

4 data pertama dan sebagiannya dilampirkan.

Tabel 4.5 Data Survival Time

no x1 x2 x3 x4 y

1 6.7 62 81 2.59 200

2 5.1 59 66 1.7 101

3 7.4 57 83 2.16 204

4 6.5 73 41 2.01 101

4.2.1 Pemeriksaan Outlier

Sebelum menganalisis menggunkan regresi akan diperiksa terlebih dahulu

apakah dalam data tersebut terdapat oulier pada arah-y atau arah-x atau ada pada

keduanya.

a. Pemeriksaan Leverage

Data yang lebih besar dari nilai centroid (mean) variabel independen dan

nilai hii yang melebihi nilai cutoff 2 1k n digolongkan sebagai outlier. Nilai-

nilai centroid dari keempat variabel independen adalah 5.783333, 63.42593,

77.2037, 2.744259. dan nial cutoff-nya adalah 0,1852. Data yang termasuk outlier

pada data survival time tabel (4.5) adalah data ke-16, 28, 32, 38, dan 43 dengan

nilai hii masing-masing adalah 0,189087, 0,264561, 0,219006, 0,31775, 0,260665

61

yang semuanya lebih besar dari nilai cutoff, 0,1852. Untuk pemeriksaan data

ditabelkan pada (4.6), data yang lainnya terlampir.

b. Pemeriksaan Discrepancy

Penentuan nilai outlier berdasarkan nilai Externally studentized residuals

berdasarkan Penentuan nilai cutoff –nya yang mengikuti distribusi t dengan

1.df n k jika nilai it lebih besar dari nilai tabelt dengan derajat kepercayaan

, maka data tersebut memiliki nilai discrepancy yang besar dan dikategorikan

sebagai outlier. Untuk data pada tabel (4.5) nilai tabelt dengan derajat kepercayaan

= 0.05 adalah 2,01. Nilai discrepancy-nya adalah data ke-17 dan 21 dengan

nilai Externally studentized residuals masing-masing adalah 2.2679, 10.0852 yang

lebih besar dari nilai tabelt . Untuk pemeriksaan datanya ditabelkan pada (4.6), data

yang lainnya terlampir.

Deteksi outlier yang selanjutnya adalah dengan melihat nilai dari jarak

Cook’s dan DFFITS, penentuan outlier dengan menggunkan Cook’s distance

adalah jika nilai yang melebihi Ftabel dengan 1, 1df k n k dengan 0.05

, maka data tersebut digolongkan sebagai outlier. Sedangkan penentuan outlier

berdasarkan nilai DFFITS adalah nilai yang melebihi 2 1k n . Nilai Ftabel

untuk data tabel (4.4) adalah 2,21, sedangkan nilai cutoff untuk penentuan

berdasarkan DFFITS adalah 0,61. Dari data pada tabel (4.5) yang menjadi data

outlier adalah data ke-17, 21, dan 32. Untuk pemeriksaan data ditabelkan pada

(4.6) selengkapnya dilampirkan.

62

RESI1

Pe

rce

nt

3002001000-100-200

99

95

90

80

70

60

50

40

30

20

10

5

1

Mean

<0.010

1.578984E-15

StDev 59.29

N 54

KS 0.161

P-Value

Probability Plot of RESI1Normal

Gambar 4.6 Normal Plot dari Residual Persamaan

(4.4)

Tabel 4.6 Pemeriksaan data outlier pada data tabel 4.5

no leverage discrepancy influence

hii cutoff ti cutoff Dffit cutoff

1. 0.039845 0.1852 -0.5893 2.01 -0.12005 0,61

2. 0.036983 0.1852 0.0746 2.01 0.01462 0,61

3. 0.106676 0.1852 -0.6346 2.01 -0.21928 0,61

4. 0.081727 0.1852 -0.06 2.01 -0.01791 0,61

5. 0.124131 0.1852 1.0872 2.01 0.4093 0,61

6. 0.08127 0.1852 0.4743 2.01 0.14107 0,61

4.2.2 Analisis Regresi

a. Metode Least Square

Penerapan metode least square pada data tabel (4.5) di atas menghasilkan

model:

1 2 3 4ˆ -620.0512 33.8520 4.2701 4.1111 12.1025y x x x x (4.4)

karena residual yang dihasilakn oleh persamaan (4.5) tidak berdistribusi

normal hal ini ditunjukan pada gambar (4.6) berikut:

63

Dan uji kenormalan tidak terpenuhi karena nilai P-value-nya 0,01 lebih

kesil dari tingkat kepercayaan 0,05. Oleh karena itu, Persamaan (4.4) di atas tidak

dapat digunakan kerena tidak memnuhi asumis untuk metode LS, yaitu asumsi

kenormalan. R-square yang dihasilkan dari metode LS ini adalah 83,35%. Dan

menghasilkan residual standar error sebesar 61,67.

b. Metode Least Trimmed Square

Penerapan metode least trimmed square pada data tabel (4.4) di atas

menghasilkan model:

1 2 3 4ˆ -478.9261 29.3677 3.1154 3.2763 15.0201y x x x x (4.5)

dengan metode LTS R-square yang dihasilkan adalah 91,1% lebih besar dari yang

dihasilkan oleh metode LS. dan nilai konstanta dari LTS (persamaan 4.5) jika

dibandingkan dengan persamaan (4.4) lebih kecil, dan untuk koefisien-koefisien

1 2 3, ,x x x persamaan (4.5) juga lebih kecil dari persamaan (4.4). sedangkan nilai

koefisien x4 pada persamaan (4.5) lebih besar dari persamaan (4.4). dan

persamaan (4.5) menghasilkan estimasi residual error sebesar 24,8 lebih kecil

dari persamaan (4.4)

c. Metode MM-Estimasi

Penerapan metode MM-estimasi pada data tabel (4.4) di atas menghasilkan

model:

𝑦 = −353.6101 + 25.8923𝑥1 + 2.4334𝑥2 + 2.7282𝑥3 + 0.4754𝑥4.(4.6)

Dengan metode MM-estimasi, R-square yang dihasilkan adalah 94,1%

lebih besar dari yang dihasilkan oleh dua metode sebelumnya dan menghasilkan

estimasi residual sebesar 20,96 lebih kecil jika dibandingkan dengan kedua

metode sebelumnya. Dan juga nilai konstanta dan koefisien persamaan (4.6)

64

memiliki nilai-nilai yang kecil jika dibandingkan dengan kedua metode

sebelumnya. Gambaran perbandingan yang lengkap diberikan oleh tabel 4.6

berikut ini:

Table 4.6 perbandingan nilai-nilai intercept, koefisien, skala estimasi, dan R2

dari metode LS, LTS dan MM-estimasi.

No

Metode

Regresi Intercept

Koefisien Estimasi

Skala

Residual

R2

x1 x2 x3 x4

1. LS -620,051 33,8520 4,2701 4,1111 12,1025 61,67 83,35%

2. LTS -478,926 29,3677 3,1154 3,2763 15,0201 24,8 91,3%

3. MM-

estimasi -353,610 25,8923 2,4334 2,7282 0,4754 20,96 94,1%

65

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Pendeteksian outlier yang dibahas terdiri dari pendeteksian leverage,

pendeteksian discrepancy, dan nilai influence dapat digunakan deteksi

menggunakan nilai hii, pendeteksian nilai discrepancy menggunakan externally

studentized residual (ti), pendeteksian nilai influence dapat digunakan DFIIT’S

dan Cook’S distance. Ketiga metode ini dibandingkan dengan suatu nilai cutoff.

Jika ketiga nilai tersebut melebihi masing-masing nilai cutoff-nya maka suatu data

dideteksi sebagai outlier.

Kehadiran data outlier pada regresi akan memberikan nilai-nilai konstanta

dan koefisien pada model regresi membesar jika menggunakan metode least

square. Selain itu, nilai estimasi skala residual yang menggambarkan ke-fit-an

suatu garis least square besar. Hal itu tidak terjadi pada analisis regresi yang

menggunakan metode least trimmed square dan MM-estimasi. Nilai konstanta

dan nilai-nilai koefisien dari metode least trimmed square dan MM-estimasi tidak

terpengaruh oleh kehadiran data outlier, bahkan jika data outlier itu pun hamper

setengah banyaknya darri data, karena kedua metode tersebut mempunyai nilai

breakdown point sampai 50%. Dan estimasi skala residual dari metode least

trimmed square dan MM-estimasi lebih kecil dibandingkan dengan metode least

square.

66

Sedangkan jika least trimmed square (LTS) dibandingkan dengan metode

MM-estimasi, metode LTS pada analisis regresi sederhana (satu variable

independen) memberikan nilai estimasi skala residual lebih kecil dari nilai

estimasi skala residual metode MM-estimasi. Sedangkan untuk analisis regresi

berganda metode MM-estimasi menunjukkan estiamsi skala residual yang lebih

besar dari metode LTS.

5.2 Saran

Pada tugas akhir ini hanya digunakan dua metode robust yaitu least

trimmed square dan MM-estimasi. Oleh karena itu, untuk penelitian yang lain

supaya digunakan metode robust yang lainnya seperti Least median square

(LMS), least winsorized square (LWS) dan lain sebagainya. Kemudian data yang

digunakan lebih beragam lagi supaya bisa melihat metode mana yang cocok

digunakan.

67

REFERENSI

[1] Mendenheell, Wiliam, A second Course in statistics: Regression

Analysis. Edisi kelima. Prentice Hall, New Jersey, 1996

[2] Cohen, Jacob, Applied Multiple Regression/Correlation Analysis For The

Behavioral Sciences. Edisi ketiga. Lawrence Erlbaum Associate. New Jersey.

2003

[3] Rousseeuw, Peter J., Annick M.Leroy, robust regression and outlier

detection. John Wiley & Sons, 1986

[4] Weisberg, Sanford, Applied Linear Regression, Edisi ketiga. John Willey

and Sons, Inc Publication. Hoboken, New Jersey. 2005

[5] Yohai, Victor J., Robust Statistics Theory and Methods. John Wiley and

Sons Ltd. England, 2006.

[6] Hoog, R.V., Allen T. Craig, Introduction to Mathematical Statistics.

Edisi kelima. Prentice Hall international, inc., Englewood Cliffs, New Jersey.

1996.

[8] Soemartini, pencilan (outlier). 2007.

68

Lampiran I

Tabel 4.1 dana pensiun untuk 18 cabang

Lampiran II


arah-x

No x y

1. 10.4 272.2

2. 15.6 212.9

3. 16.2 120.7

4. 17.9 163.6

5. 37.8 226.1

6. 46.9 622.9

7. 52.4 1353.2

8. 52.9 363.6

9. 71 951.7

10. 73.9 307.2

11. 16.3 588.4

12. 77 952.5

13. 131.2 1157.3

14. 151 2105.6

15. 206.1 3581.4

16. 314.7 3404.7

17. 470.8 4095.3

18. 1406.3 6802.7

No x y centroid hii cutoff Jenis data

1. 10.4 272.2 176.02 0.070383 0.33 Bukan

2. 15.6 212.9 176.02 0.069467 0.33 Bukan

3. 16.2 120.7 176.02 0.069363 0.33 Bukan

4. 17.9 163.6 176.02 0.069071 0.33 Bukan

5. 37.8 226.1 176.02 0.065883 0.33 Bukan

6. 46.9 622.9 176.02 0.064568 0.33 Bukan

7. 52.4 1353.2 176.02 0.063817 0.33 Bukan

8. 52.9 363.6 176.02 0.06375 0.33 Bukan

9. 71 951.7 176.02 0.061518 0.33 Bukan

10. 73.9 307.2 176.02 0.061193 0.33 Bukan

11. 16.3 588.4 176.02 0.069346 0.33 Bukan

12. 77 952.5 176.02 0.060856 0.33 Bukan

13. 131.2 1157.3 176.02 0.056642 0.33 Bukan

69

Lampiran III


arah-y

no x y Externally studentized

residuals t0.05

Jenis

data

1. 10.4 272.2 -0.52552 2.120 Bukan

2. 15.6 212.9 -0.63674 2.120 Bukan

3. 16.2 120.7 -0.76284 2.120 Bukan

4. 17.9 163.6 -0.71694 2.120 Bukan

5. 37.8 226.1 -0.76536 2.120 Bukan

6. 46.9 622.9 -0.30918 2.120 Bukan

7. 52.4 1353.2 0.58285 2.120 Bukan

8. 52.9 363.6 -0.68267 2.120 Bukan

9. 71 951.7 -0.04641 2.120 Bukan

10. 73.9 307.2 -0.89794 2.120 Bukan

11. 16.3 588.4 -0.15881 2.120 Bukan

12. 77 952.5 -0.08324 2.120 Bukan

13. 131.2 1157.3 -0.16745 2.120 Bukan

14. 151 2105.6 0.92182 2.120 Bukan

15. 206.1 3581.4 3.058 2.120 Outlier

16. 314.7 3404.7 1.63126 2.120 Bukan

17. 470.8 4095.3 1.51935 2.120 Bukan

18. 1406.3 6802.7 -4.90717 2.120 Outlier

14. 151 2105.6 176.02 0.055894 0.33 Bukan

15. 206.1 3581.4 176.02 0.056045 0.33 Bukan

16. 314.7 3404.7 176.02 0.065951 0.33 Bukan

17. 470.8 4095.3 176.02 0.102526 0.33 Bukan

18. 1406.3 6802.7 176.02 0.873729 0.33 Outlier

70

Lampiran IV

Table 4.5 survival time

No x1 x2 x3 x4 y

1 6.7 62 81 2.59 200

2 5.1 59 66 1.7 101

3 7.4 57 83 2.16 204

4 6.5 73 41 2.01 101

5 7.8 65 115 4.3 509

6 5.8 38 72 1.42 80

7 5.7 46 63 1.91 80

8 3.7 68 81 2.57 127

9 6 67 92 2.5 202

10 3.7 76 94 2.4 203

11 6.3 84 83 4.13 329

12 6.7 51 43 1.86 65

13 5.8 83 88 3.95 330

14 7.7 62 67 3.4 168

15 7.4 74 68 2.4 217

16 6 85 28 2.98 87

17 3.7 51 41 1.55 34

18 7.3 68 74 3.56 215

19 5.6 57 87 3.02 172

20 5.2 52 76 2.85 109

21 5.8 96 114 3.95 830

22 3.4 83 53 1.12 136

23 6.7 26 68 2.1 70

24 5.8 67 86 3.4 220

25 6.3 59 100 2.95 276

26 5.8 61 73 3.5 144

27 5.2 52 86 2.45 181

28 11.2 76 90 5.59 574

29 5.2 54 56 2.71 72

30 5.8 76 59 2.58 178

31 3.2 64 65 0.74 71

32 8.7 45 23 2.52 58

33 5 59 73 3.5 116

34 5.8 72 93 3.3 295

35 5.4 58 70 2.64 115

36 5.3 57 99 2.6 184

37 2.6 74 86 2.05 118

38 4.3 8 120 2.85 120

39 4.8 61 76 2.45 151

40 5.4 52 88 1.81 148

41 5.2 49 72 1.84 95

71

42 3.6 28 99 1.3 75

43 8.8 90 88 6.4 483

44 6.5 56 77 2.85 153

45 3.4 77 93 1.48 191

46 6.5 40 84 3 123

47 4.5 73 106 3.05 311

48 4.8 86 101 4.1 398

49 5.1 67 77 2.86 158

50 3.9 82 108 4.55 310

51 6.6 77 46 1.95 124

52 6.4 85 40 1.21 125

53 6.4 59 85 2.33 198

54 8.8 78 72 3.2 313

Lampiran V

Pemeriksaan leverage data table 4.5

No x1 x2 x3 x4 y cutoff HI1 Jenis data

1 6.7 62 81 2.59 200 0.1852 0.039845 bukan

2 5.1 59 66 1.7 101 0.1852 0.036983 bukan

3 7.4 57 83 2.16 204 0.1852 0.106676 bukan

4 6.5 73 41 2.01 101 0.1852 0.081727 bukan

5 7.8 65 115 4.3 509 0.1852 0.124131 bukan

6 5.8 38 72 1.42 80 0.1852 0.08127 bukan

7 5.7 46 63 1.91 80 0.1852 0.047382 bukan

8 3.7 68 81 2.57 127 0.1852 0.060138 bukan

9 6 67 92 2.5 202 0.1852 0.055526 bukan

10 3.7 76 94 2.4 203 0.1852 0.07453 bukan

11 6.3 84 83 4.13 329 0.1852 0.065277 bukan

12 6.7 51 43 1.86 65 0.1852 0.080764 bukan

13 5.8 83 88 3.95 330 0.1852 0.059973 bukan

14 7.7 62 67 3.4 168 0.1852 0.050458 bukan

15 7.4 74 68 2.4 217 0.1852 0.08157 bukan

16 6 85 28 2.98 87 0.1852 0.189087 outlier

17 3.7 51 41 1.55 34 0.1852 0.151355 bukan

18 7.3 68 74 3.56 215 0.1852 0.038603 bukan

19 5.6 57 87 3.02 172 0.1852 0.027375 bukan

20 5.2 52 76 2.85 109 0.1852 0.044225 bukan

21 5.8 96 114 3.95 830 0.1852 0.153731 bukan

22 3.4 83 53 1.12 136 0.1852 0.141251 bukan

23 6.7 26 68 2.1 70 0.1852 0.124505 bukan

72

24 5.8 67 86 3.4 220 0.1852 0.02792 bukan

25 6.3 59 100 2.95 276 0.1852 0.055787 bukan

26 5.8 61 73 3.5 144 0.1852 0.055338 bukan

27 5.2 52 86 2.45 181 0.1852 0.031417 bukan

28 11.2 76 90 5.59 574 0.1852 0.264561 outlier

29 5.2 54 56 2.71 72 0.1852 0.083994 bukan

30 5.8 76 59 2.58 178 0.1852 0.042994 bukan

31 3.2 64 65 0.74 71 0.1852 0.106039 bukan

32 8.7 45 23 2.52 58 0.1852 0.219006 outlier

33 5 59 73 3.5 116 0.1852 0.092267 bukan

34 5.8 72 93 3.3 295 0.1852 0.033969 bukan

35 5.4 58 70 2.64 115 0.1852 0.028826 bukan

36 5.3 57 99 2.6 184 0.1852 0.047335 bukan

37 2.6 74 86 2.05 118 0.1852 0.105797 bukan

38 4.3 8 120 2.85 120 0.1852 0.31775 outlier

39 4.8 61 76 2.45 151 0.1852 0.027146 bukan

40 5.4 52 88 1.81 148 0.1852 0.061503 bukan

41 5.2 49 72 1.84 95 0.1852 0.038149 bukan

42 3.6 28 99 1.3 75 0.1852 0.148072 bukan

43 8.8 90 88 6.4 483 0.1852 0.260665 outlier

44 6.5 56 77 2.85 153 0.1852 0.026771 bukan

45 3.4 77 93 1.48 191 0.1852 0.132737 bukan

46 6.5 40 84 3 123 0.1852 0.068236 bukan

47 4.5 73 106 3.05 311 0.1852 0.068364 bukan

48 4.8 86 101 4.1 398 0.1852 0.09949 bukan

49 5.1 67 77 2.86 158 0.1852 0.027048 bukan

50 3.9 82 108 4.55 310 0.1852 0.177734 bukan

51 6.6 77 46 1.95 124 0.1852 0.085847 bukan

52 6.4 85 40 1.21 125 0.1852 0.174638 bukan

53 6.4 59 85 2.33 198 0.1852 0.050524 bukan

54 8.8 78 72 3.2 313 0.1852 0.123695 bukan

Lampiran VI

PEMERIKSAAN DISCREPANCY DATA TABLE 4.5

no TRES1 ttabel Jenis data

1 -0.5893 2.01 bukan

2 0.0746 2.01 bukan

3 -0.6346 2.01 bukan

4 -0.06 2.01 bukan

5 1.0872 2.01 bukan

6 0.4743 2.01 bukan

7 0.4706 2.01 bukan

8 -0.5425 2.01 bukan

73

9 -1.2699 2.01 bukan

10 -0.708 2.01 bukan

11 -0.2344 2.01 bukan

12 0.6928 2.01 bukan

13 -0.1704 2.01 bukan

14 -0.896 2.01 bukan

15 -0.6398 2.01 bukan

16 -0.1818 2.01 bukan

17 2.2679 2.01 outlier

18 -0.8199 2.01 bukan

19 -0.5737 2.01 bukan

20 -0.2622 2.01 bukan

21 10.0852 2.01 outlier

22 0.9634 2.01 bukan

23 0.8161 2.01 bukan

24 -0.6061 2.01 bukan

25 -0.2639 2.01 bukan

26 -0.5839 2.01 bukan

27 0.3227 2.01 bukan

Lampiran VII

Pemeriksaan outlier berdasarkan DFFIT dan COOK’s distance data table

4.5

no COOK1 cutoff DFIT1 cutoff Jenis data

1 0.00292 2.31 -0.12005 0.61 bukan

2 0.00004 2.31 0.01462 0.61 bukan

3 0.00974 2.31 -0.21928 0.61 bukan

4 0.00007 2.31 -0.01791 0.61 bukan

5 0.03338 2.31 0.4093 0.61 bukan

6 0.00404 2.31 0.14107 0.61 bukan

7 0.00224 2.31 0.10496 0.61 bukan

8 0.00382 2.31 -0.13724 0.61 bukan

9 0.01873 2.31 -0.30792 0.61 bukan

10 0.00816 2.31 -0.20093 0.61 bukan

11 0.00078 2.31 -0.06194 0.61 bukan

12 0.00852 2.31 0.20535 0.61 bukan

13 0.00038 2.31 -0.04304 0.61 bukan

14 0.00857 2.31 -0.20654 0.61 bukan

15 0.00736 2.31 -0.19068 0.61 bukan

16 0.00157 2.31 -0.08777 0.61 bukan

17 0.16915 2.31 0.95775 0.61 outlier

18 0.00543 2.31 -0.1643 0.61 bukan

19 0.00188 2.31 -0.09625 0.61 bukan

74

20 0.00065 2.31 -0.05641 0.61 bukan

21 1.20946 2.31 4.29843 0.61 outlier

22 0.03058 2.31 0.39071 0.61 bukan

23 0.01907 2.31 0.30775 0.61 bukan

24 0.00214 2.31 -0.10272 0.61 bukan

25 0.00084 2.31 -0.06415 0.61 bukan

26 0.00405 2.31 -0.14133 0.61 bukan

27 0.00069 2.31 0.05813 0.61 bukan

28 0.07152 2.31 0.59798 0.61 bukan

29 0.00265 2.31 0.114 0.61 bukan

30 0.00003 2.31 0.01183 0.61 bukan

31 0.00772 2.31 0.1951 0.61 bukan

32 0.08309 2.31 0.6478 0.61 outlier

33 0.00449 2.31 -0.14865 0.61 bukan

34 0.00023 2.31 -0.03372 0.61 bukan

35 0.00037 2.31 -0.04252 0.61 bukan

36 0.00898 2.31 -0.21172 0.61 bukan

37 0.01367 2.31 -0.26027 0.61 bukan

38 0.03792 2.31 0.43278 0.61 bukan

39 0.00005 2.31 0.01628 0.61 bukan

40 0.00154 2.31 -0.08696 0.61 bukan

41 0.00029 2.31 0.03755 0.61 bukan

42 0.01024 2.31 0.22459 0.61 bukan

43 0.00848 2.31 -0.20406 0.61 bukan

44 0.00205 2.31 -0.10065 0.61 bukan

45 0.01016 2.31 -0.22386 0.61 bukan

46 0.00358 2.31 -0.13276 0.61 bukan

47 0.00013 2.31 -0.02564 0.61 bukan

48 0.00356 2.31 0.13228 0.61 bukan

49 0.00153 2.31 -0.08668 0.61 bukan

50 0.03622 2.31 -0.42486 0.61 bukan

51 0.00236 2.31 -0.10755 0.61 bukan

52 0.00251 2.31 -0.11097 0.61 bukan

53 0.00234 2.31 -0.10732 0.61 bukan

54 0.00903 2.31 -0.21096 0.61 bukan

Documents

ANALISIS REGRESI PADA DATA OUTLIER DENGAN …repository.uinjkt.ac.id/dspace/bitstream/123456789/2309/1/HERU... · analisis regresi pada data outlier . dengan menggunakan least trimmed