View
108
Download
12
Category
Preview:
Citation preview
STATISTIKA DAN METODE PENELITIAN
Resume Pertemuan ke-6
ANALISIS DATA KATEGORIK
Oleh:
Sahrul Sahar
P2800212003
Teknik Perencanaan Prasarana
Pascasarjana Universitas Hasanuddin
1. Data Kategorik
Data kategorik adalah data yang skala pengukurannya terdiri dari sekumpulan
kategorik ordinal atau nominal. Data kategorik juga dapat di artikan sebagai data yang hanya
berupa kategori, level, pernyataan, simbol, penamaan, pengkodean dan lain-lain.
a) Data dari Skala Pengukuran Nominal, yaitu jenis data yang penggolongannya atau
pengkategoriannya hanya berupa nama saja, tidak ada urutan yang memberikan makna
tertentu. Yang termasuk dalam data ini, misalnya :
Jenis kelamin : laki-laki, perempuan;
Warna : jingga,abu-abu, merah, orange, dsb;
Nama orang : bambang, Ucok, Rahmat, dsb.
Tempat tinggal/region (Urban, Rural).
b) Data dari Skala Pengukuran Ordinal, yaitu jenis data yang pengkategoriannya bisa
diurutkan berdasarkan kriteria tertentu yang bermakna. Yang termasuk dalam jenis
data ini, misalnya:
Tingkat pendidikan (SD, SMP, SLTA, PT).
Respon konsumen pada produk (puas, cukup, kurang puas).
Kode 1 (motivasi rendah), kode 2 (motivasi tinggi) dan kode 3 (motivasi sangat
tinggi).
2. Analisis Data Kategorik
Analisis data kategorik dapat dilakukan, bilamana kita mencoba membuat analisa,
ada keterkaiatan satu faktor/variabel kategorik dengan faktor lain. Seperti adanya
keterkaitan antara tingkat keaktifan kerja dengan tingkat pendidikan atau keterkaitan antara
perbedaan jenis kelamin dengan tingkat pendidikan, atau tempat tinggal.
1
a) Analisis Asosiasi, yaitu untuk melihat adanya perbedaan, sehingga dikatakan
adanya hubungan antar faktor/variabel yang diteliti. Untuk analisis ini digunakan
ukuran selisih proporsi pada faktor utama untuk perbedaan level/kategori.
Seperti perbedaan proporsi atau persentase dari laki-laki dan perempuan, yang
menyenangi punya banyak anak.
b) Analisis Perbandingan (Ratio Prevalensi), yaitu ukuran yang dapat dipakai dalam
analisis data kategorik untuk melihat perbandingan dari adanya perbedaan
dalam level/kategori faktor utama. Seperti, kita ingin tahu berapa kali lebih
banyak/lebih sedikit antara mahasiswa dan mahasiswi yang bolos kuliah.
c) Analisis Kecenderungan (Odd’s Value), yaitu ukuran yang dipakai untuk melihat
kecenderungan dari setiap kategori/level pada faktor utama, dengan perbedaan
kategori faktor lain (faktor kedua, ketiga, atau ke-n ; yang untuk kemudian
disebut faktor/variabel tujuan). Untuk itu juga diperbandingkan nilai proporsi
kategori tertentu pada faktor utama, untuk perbedaan level/kategori faktor
tujuan.
3. Distribusi Analisis Data Kategorik
a) Distribusi Binomial
Distribusi Binomial adalah distribusi probabilitas diskret jumlah keberhasilan
dalam n percobaan ya/tidak (berhasil/gagal) yang saling bebas, dimana setiap hasil
percobaan memiliki probabilitas p. Contohnya:
Sebuah dadu dilempar sepuluh kali dan dihitung berapa jumlah muncul angka
empat. Distribusi jumlah acak ini adalah distribusi binomial dengan n = 10 dan p
= 1/6.
Sebuah uang logam dilambungkan tiga kali dan dihitung berapa jumlah muncul
sisi depan. Distribusi jumlah acak ini merupakan distribusi binomial dengan n =
3 dan p = 1/2.
Adapun karakteristik distribusi binomial yaitu:
1) Percobaan diulang sebanyak n kali.
2) Hasil setiap ulangan dapat dikategorikan ke dalam 2 kelas, misal :
"Berhasil" atau "Gagal";
"Ya" atau "Tidak";
"Success" atau "Failed";
3) Peluang berhasil/sukses dinyatakan dengan p dan dalam setiap ulangan nilai p
tetap. peluang gagal dinyatakan dengan q, dimana q = 1 - p.
2
4) Setiap ulangan bersifat bebas (independent) satu dengan yang lainnya.
5) Besaran sampel (n) < 20 dan nilai peluang berhasil dalam setiap ulangan (p) >
0.05.
b) Distribusi Poisson
Distribusi poisson adalah distribusi probabilitas diskret yang menyatakan
peluang jumlah peristiwa yang terjadi pada periode waktu tertentu apabila rata-rata
kejadian tersebut diketahui dan dalam waktu yang saling bebas sejak kejadian terakhir.
Distribusi poisson juga dapat digunakan untuk jumlah kejadian pada interval tertentu
seperti jarak, luas, atau volume. Distribusi poisson digunakan jika besarnya sampel (n) ≥
20 dan nilai peluang berhasil dalam setiap ulangan (p) ≤ 0.05.
4. Metode Analisis Data
a) Chi-Square
Uji Chi-Kuadrat adalah pengujian hipotesis mengenai perbandingan antara
frekuensi observasi yang benar-benar terjadi/aktual dengan frekuensi
harapan/ekspektasi. Frekuensi observasi adalah nilai yang didapat dari hasil observasi
sedangkan frekuensi harapan adalah nilai yang didapat dari penghitungan secara
teoritis. Uji Chi-Kuadrat digunakan untuk mengetahui adanya hubungan antara peubah
yang diukur tersebut signifikan atau tidak.
Kegunaan uji Chi-Kuadrat adalah:
1) Untuk menguji apakah ada perbedaan yang cukup berarti antara pengamatan suatu
objek (respon tertentu) terhadap nilai harapan.
2) Untuk menguji apakah ada hubungan antara satu peubah berdasarkan
pengkategorian (klasifikasi) terhadap peubah lainnya yang juga diberikan
pengkategorian (klasifikasi).
Hipotesa yang dipergunakan adalah:
H0 : Pijk = Pi.. P.j. P..k
H0 : Pijk ≠ Pi.. P.j. P..k
Interpretasi dari hasil uji chi-square, adalah:
Apabila peluang lebih dari 5% maka persamaan distribsi yang digunakan dapat
diterima.
Apabila peluang kurang dari 5%, maka persamaan distribsi yang digunakan
tidak dapat diterima.
3
Apabila nilai peluang diantara 1-5% maka tidak mungkin diambil keputusan,
diperlukan data tambahan.
b) Regresi Logistik
Regresi logistik digunakan untuk mengetahui pengaruh satu variable
independen atau lebih (X) terhadap satu variable dependen (Y), dengan syarat:
1) Variabel dependent harus merupakan variable dummy yang hanya punya dua
alternatif. Misalnya Puas atau Tidak Puas, dimana jika responden menjawab puas
maka kita beri skor 1 dan jika menjawab tidak puas kita beri skor 0.
2) Variabel independent mempunyai skala data interval atau rasio.
c) Tabel Kontingensi
Tabel kontingensi bisa digunakan untuk melihat hubungan dua peubah
kategorik. Dari tabel kontingensi ini bisa dibuat kesimpulan apakah ada hubungan
antara satu variabel dengan variabel lainnya. Untuk menegaskan pembahasan dari tabel
kontingensi, dilakukan pengujian formal yang dikenal dengan uji Khi-Kuadrat (Chi-
Square Test)
Contoh Kasus:
Seorang pegawai PDAM kota Makassar mencatatat terjadi 220 kejadian
kebocoran pipa di Kota Makassar dalam kurun waktu satu bulan. Kebocoran ini
kemudian dikelompokan pada 2 jenis tingkatan kerusakan (rusak ringan dan rusak
berat). Pegawai tersebut menduga kebocoran tersebut berhubungan dengan jalur pipa
yang melintasi jalan raya, drainase, dan kompleks perumahan. Untuk menguji dugaan
tersebut diperoleh data sebagai berikut:
Jalur Pipa Tingkat KebocoranRusak Ringan Rusak Berat
Jalan 40 65Drainase 15 20Perumahan 45 35
Hipotesis yang akan diuji:
H0 : Kedua variabel saling bebas (tidak ada asosiasi antara tingkat kebocoran pipa terhadap
jalur pipa).
H1 : Kedua variabel tidak bebas (ada asosiasi antara tingkat kebocoran pipa terhadap jalur
pipa).
4
Dengan tingkat signifikansi 5%, pegawai tersebut akan mencoba menguji dugaannya.
Penyelesaian
Membuka program SPSS, dan pada jendela Variabel View, menuliskan nama-nama
variabel yang akan diuji. Baris pertama diisi dengan nama Jalur_Pipa, dan baris kedua
kedua diisi dengan nama Tingkat_Kebocoran.
Pada Variabel View, Jalur_Pipa nilai [Value], isi dengan 1 dan [Label] isi dengan Jalan
lalu klik [add], input kembali [Value] isi dengan 2 dan [Label] isi dengan Drainase lalu
klik [add], input kembali [Value] isi dengan 3 dan [Label] isi dengan Perumahan lalu
klik [add]. Selanjutnya tekan [OK].
Untuk Tingkat_Kebocoran nilai [Value], isi dengan 1 dan [Label] isi dengan Rusak
Ringan lalu klik [add], input kembali [Value] isi dengan 2 dan [Label] isi dengan Rusak
Berat lalu klik [add]. Selanjutnya tekan [OK].
Selanjutnya data yang tersedia diinput ke Data_View.
Kemudian data dianalisis dengan memilih menu [Analyze] lalu pilih [Descriptive
Statistics] dan klik [Crosstabs…].
5
Selanjutnya akan muncul kotak toolbar Crosstabs, klik Jalur_Pipa lalu input ke [Row(s)].
Kemudian klik Tingkat_Kebocoran lalu input ke [Column(s)].
Klik [Statistics] lalu akan muncul kotak toolbar Crosstabs: Statistics lalu centang [Chi-
square], [Correlations] dan [Contingency coefficient],lalu plih [Continue].
Centang [Display clustered bar chart].
Kemudian klik [OK] untuk melihat hasilnya.
Hasil output analisis dapat dilihat pada tabel- tabel berikut:
6
Tabel.1 Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
Jalur_Pipa * Tingkat_Kebocoran 220 100.0% 0 .0% 220 100.0%
Pada tabel 1 ini dijelaskan mengenai kesahihan variabel Jalur_Pipa dan
Tingkat_Kebocoran.
Tabel.2 Jalur_Pipa * Tingkat_Kebocoran Crosstabulation
Count
Tingkat_Kebocoran
TotalRusak Ringan Rusak Berat
Jalur_Pipa Jalan 40 65 105
Drainase 15 20 35
Permukiman 45 35 80
Total 100 120 220
Tabel 2 ini merupakan tabel tabulasi silang antar variabel Jalur_Pipa dengan
Tingkat_Kebocoran. Variabel Jalur_Pipa pada baris dan variabel Tingkat_Kebocoran pada kolom.
Tabel.3Chi-Square Tests
Value dfAsymp. Sig. (2-
sided)
Pearson Chi-Square 6.149a 2 .046
Likelihood Ratio 6.159 2 .046
Linear-by-Linear Association
5.902 1 .015
N of Valid Cases 220
a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 15,91.
Untuk menguji hasil tabel tabulasi silang dilakukan uji chi-square sesuai dengan tabel 3.
Diketahui bahwa nilai chi-square sebesar 6.149 dengan nilai p-value sebesar 0.046 pada kolom
Asymp.Sig.(2-sided). Nilai 0.046 < 0.05 sehingga H0 ditolak dengan kata lain terdapat
asosiasi/hubungan antara Jalur_Pipa dengan Tingkat_Kebocoran. Selain itu nilai dari frekuensi
harapan minimum 15.91 dan nilai ini lebih dari 5 sehingga memenuhi syarat uji Chi-square.
7
Tabel.4Symmetric Measures
ValueAsymp. Std.
Errora Approx. Tb Approx. Sig.a
Nominal by Nominal
Contingency Coefficient
.165 .046
Interval by Interval Pearson's R -.164 .067 -2.457 .015c
Ordinal by Ordinal Spearman Correlation -.163 .067 -2.436 .016c
N of Valid Cases 220
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on normal approximation.
Sesuai gambar diagram diketahui bahwa tingkat kerusakan pipa rusak berat lebih tinggi
dibanding rusak ringan yaitu sebesar 62% yang melewati jalan (65 dari 105 sampel), yang
melewati drainase 57% (20 dari 35 sampel) dan 44% yang melewati permukiman (35 dari 80
sampel).
8
Menggunakan Analisis Regresi Logistik, sebagai berikut:
Contoh Kasus:
Seorang peneliti ingin mengetahui seberapa besar pengaruh dari pelaksana
pekerjaan terhadap hasil pekerjaan. Penelitian ini dilakukan dengan mengambil sampel
sebanyak 220 orang. Pelaksanan pekerjaan dibedakan atas 3 yaitu pemerintah, swasta
dan masyarakat lokal. Adapun data yag diperoleh sebagai berikut:
Pelaksana Hasil PekerjaanBaik Kurang Baik
Pemerintah 40 65Swasta 25 10Masyarakat Lokal 45 35
Dengan tingkat signifikansi 5%, pegawai tersebut akan mencoba menguji dugaannya.
Membuka program SPSS, dan pada jendela Variabel View, menuliskan nama-nama
variabel yang akan diuji. Baris pertama diisi dengan nama Pelaksana, dan baris kedua
kedua diisi dengan nama Hasil_Pekerjaan.
Pada Variabel View, Pelaksana nilai [Value], isi dengan 1 dan [Label] isi dengan
Pemerintah lalu klik [add], input kembali [Value] isi dengan 2 dan [Label] isi dengan
Swasta lalu klik [add], input kembali [Value] isi dengan 3 dan [Label] isi dengan
Masyarakat Lokal lalu klik [add]. Selanjutnya tekan [OK].
Untuk Hasil_Pekerjaan nilai [Value], isi dengan 1 dan [Label] isi dengan Baik lalu klik
[add], input kembali [Value] isi dengan 2 dan [Label] isi dengan Kurang Baik lalu klik
[add]. Selanjutnya tekan [OK].
9
Selanjutnya data yang tersedia diinput ke Data_View.
Kemudian data dianalisis dengan memilih menu [Analyze] lalu pilih [Regression] dan klik
[Binary Logistic…].
10
Selanjutnya akan muncul kotak toolbar Logistic Regression, klik Hasil_Pekerjaan lalu
input ke [Dependent]. Kemudian klik Pelaksana lalu input ke [Covariates].
Kemudian klik [OK] untuk melihat hasilnya.
Hasil output analisis dapat dilihat pada tabel- tabel berikut:
Tabel.1Case Processing Summary
Unweighted Casesa N Percent
Selected Cases Included in Analysis 200 100.0
Missing Cases 0 .0
Total 200 100.0
Unselected Cases 0 .0
Total 200 100.0
a. If weight is in effect, see classification table for the total number of cases.
Tabel.2Dependent Variable
Encoding
Original Value Internal Value
Baik 0
Kurang Baik 1
11
Tabel.3Classification Tablea,b
Observed
Predicted
Hasil_Pekerjaan Percentage CorrectBaik Kurang Baik
Step 0 Hasil_Pekerjaan Baik 105 0 100.0
Kurang Baik 95 0 .0
Overall Percentage 52.5
a. Constant is included in the model.
b. The cut value is ,500
Tabel.4Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 0 Constant -.100 .142 .500 1 .480 .905
Tabel.5Variables not in the Equation
Score df Sig.
Step 0 Variables Pelaksana 3.877 1 .049
Overall Statistics 3.877 1 .049
Tabel.6Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step 1 Step 3.893 1 .048
Block 3.893 1 .048
Model 3.893 1 .048
Tabel.7Model Summary
Step-2 Log
likelihoodCox & Snell R
SquareNagelkerke R
Square
1 272.866a .019 .026
a. Estimation terminated at iteration number 3 because parameter estimates changed by less than ,001.
12
Tabel.8Classification Tablea
Observed
Predicted
Hasil_Pekerjaan Percentage CorrectBaik Kurang Baik
Step 1 Hasil_Pekerjaan Baik 70 35 66.7
Kurang Baik 45 50 52.6
Overall Percentage 60.0
a. The cut value is ,500
Tabel.9Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a Pelaksana -.310 .158 3.846 1 .050 .734
Constant .509 .341 2.230 1 .135 1.664
a. Variable(s) entered on step 1: Pelaksana.
13
Recommended