31

Click here to load reader

Dilemma Tahanan

Embed Size (px)

Citation preview

Page 1: Dilemma Tahanan

Anggota Kelompok:

Indah Sri Utami (12804241042)

Febrika Nurtiyas (12804241043)

TEORI PERMAINAN DAN PERILAKU STRATEGIS

Teori Permainan dipelopori Jhon Vonn Neumann ( ahli Matematika) dan Oskar

Morgestern (ahli ekonomi) pada tahun 1944 Teori Permainan berkaitan dengan strategi terbaik

atau optimum dalam berbagai situasi Konflik.

Teori Permainan adalah bagaimana perusahaan oligopolistik membuat keputusan strategis

untuk memperoleh keunggulan kompetetif atas pesaingnya, atau bisa memperkecil ancaman

potensial akibat langkah strategis pesaingnya,

Model Teori Permainan terdiri dari pemain, strategi, dan ganjaran.

Pemain (Player)

Pembuat keputusan, yaitu para manajer perusahaan oligopolis.

Strategi (Strategy)

Pilihan untuk mengubah harga, mengembangkan produk baru, melakukan kampanye iklan,

membangun kapasitas baru, dan tindakan lainnya yangmemengaruhi penjualan dan tingkat laba

perusahaan serta pesaingnya.

Ganjaran (Payoff)

Hasil atau konsekuensi dari setiap pilihan strategi, yang dinyatakan dalam laba atau rugi

Tabel yang mencantumkan ganjaran dari semua strategi yang mungkin dilakuan suatu

perusahaan dan reaksi yang mungkin diberi pesaingnya disebut matriks ganjaran (payoff

matrix).

Permainan

Permainan berjumlah nol (zero-sum game)

Permainan dimana keuntungan salah satu pemain merupakan akibat dari pengeluaran dan

keuntungan, secara persis seimbang dengan pemain lainnya. (contoh : jika perusahaan A

meningkatkan harganya sedangkanperusahaan B tidak, perusahaan A mungkin akan kehilangan

pangsa pasar yang beralihke perusahaan B). Keuntungan satu pemain sama dengan kerugian

pemain lainya disebutpermainan berjumlah nol.

Page 2: Dilemma Tahanan

Jika keuntungan atau kerugian salah satu perusahaan tidak diakibatkan ole biaya

ataumemberinkan keuntungan dalam jumlah yang sama pada perusahaan lain, maka terjadi

permainan tidak berjumlah nol, yaitu bisa permainan berjumlah positif atau permainan berjumlah

negatif.

Model Teori Permainan terdiri dari pemain, strategi, dan ganjaran.

Pemain (Player)

Pembuat keputusan, yaitu para manajer perusahaan oligopolis.

Strategi (Strategy)

Pilihan untuk mengubah harga, mengembangkan produk baru, melakukan kampanye iklan,

membangun kapasitas baru, dan tindakan lainnya yangmemengaruhi penjualan dan tingkat laba

perusahaan serta pesaingnya.

Ganjaran (Payoff)

Hasil atau konsekuensi dari setiap pilihan strategi, yang dinyatakan dalam laba atau rugi

Tabel yang mencantumkan ganjaran dari semua strategi yang mungkin dilakuan suatu

perusahaan dan reaksi yang mungkin diberi pesaingnya disebut matriks ganjaran (payoff

matrix).

Permainan

Permainan berjumlah nol (zero-sum game)

Permainan dimana keuntungan salah satu pemain merupakan akibat dari pengeluaran dan

keuntungan, secara persis seimbang dengan pemain lainnya. (contoh : jika perusahaan A

meningkatkan harganya sedangkanperusahaan B tidak, perusahaan A mungkin akan kehilangan

pangsa pasar yang beralihke perusahaan B). Keuntungan satu pemain sama dengan kerugian

pemain lainya disebutpermainan berjumlah nol.

Jika keuntungan atau kerugian salah satu perusahaan tidak diakibatkan ole biaya

ataumemberinkan keuntungan dalam jumlah yang sama pada perusahaan lain, maka terjadi

permainan tidak berjumlah nol, yaitu bisa permainan berjumlah positif atau permainan berjumlah

negatif.

Page 3: Dilemma Tahanan

Strategi Dominan dan Keseimbangan Nash

Keseimbangan Nash adalah sebuah situasi ketika setiap pemain memilih strategi

optimumnya, untuk menghadapi strategi yang telah dilakukan oleh pemain lainnya.

Keseimbangan strategi dominan adalah selalu merupakan keseimbangan nash, tetapi

keseimbangan nash tidak memerlukan keseimbangan strategi dominan.

Tabel 1. Matriks ganjaran untuk Permainan Pemasangan iklan

Perusahaan B

Pasang iklan Tidak pasang iklan

Perusahaan A Pasang iklan (4,3) (5,1)

Tidak (2,5) (3,2)

Nomor pertama setiap elemen merupakan ganjaran(laba) bagi perusahaan A

Nomor kedua setiap elemen merupakan ganjaran(laba) bagi perusahaan B

Strategi yang harus dipilih setiap perusahaan :

Perusahaan A :

Jika perusahaan B memasang iklan ; laba perusahaan A adalah 4 jika memasang iklan dan 2

jika tidak memasang iklan maka perusahaan A harus memasang iklan jika perusahaan B

memasang iklan. Jika perusahaan B tidak memasang iklan, laba perusahaan A adalah 5 jika

memasang iklan, dan 3 jika tidak memasang iklan. Memasang iklan adalah strategi yang

dominan untuk perusahaan A.

Perusahaan B : Apapun yang dilakukan perusahaan A (memasang iklan atau tidak), akan

lebih menguntungkan untuk perusahaan B jika memasang iklan.

Perusahaan A dan B memiliki strategi dominan memasang iklan dan menjadi keseimbangan

akhir.

Keseimbangan Nash

Perusahaan B

Pasang iklan Tidak pasang iklan

Perusahaan A Pasang iklan (4,3) (5,1)

Tidak (2,5) (6,2)

Page 4: Dilemma Tahanan

Strategi dominan pada perusahaan B adalah memasang iklan, tidak peduli apakah perusahaan A

memasang iklan atau tidak.

Perusahaan A tidak memiliki strategi dominan. Alasannya jika perusahaan B memasangiklan,

perusahaan A akan memperoleh laba 4 jika memasang iklan dan 2 jika tidak.Jadi jika

perusahaan B memasang iklan, maka perusahaan A juga harus beriklan.

Disisi lain, jika perusahaan B tidak beriklan, laba perusahaan A adalah 5 jika beriklandan 6 jika

tidak beriklan. Jadi perusahaan A harus memasang iklan jika perusahaan Bmemasang iklan dan

tidak memasang iklan jika perusahaan A tidak memasang iklansehingga perusahaan A tidak

memiliki strategi dominan.

Agar perusahaan A bisa menentukan memasang iklan atau tidak, terlebih dahulu perusahaan A

harus menunggu apa yang dilakukan oleh perusahaan B. Strategi yang optimum bagi perusahaan

A adalah juga memasang iklan disebut keseimbangan Nash.

Perilaku Strategis dan Teori Permainan

Teori Permainan dipelopori Jhon Vonn Neumann ( ahli Matematika) dan Oskar

Morgestern (ahli ekonomi) pada tahun 1944 Teori Permainan berkaitan dengan strategi terbaik

atau optimum dalam berbagai situasi Konflik.

Perilaku strategis (strategic behavior) mengcu kepada rencana kerja atau perilaku seorang

oligopolis, setelah mempertimbangkan semua reaksi yang mungkin dilakukan oleh para

pesaingnya selama adanya persaingan di antara mereka untuk memperoleh laba dan keuntungan

lainnya

Teori permainan (game theory) berkaitan dengan strategi terbaik atau optimum dalam

berbagai situasi konflik. Teori permainan memperlihatkan bagaimana perusahaan oligopolistik

membuat keputusan strategis untuk memperoleh keunggulan kompetitif atas pesaingnya, atau

bagaimana perusahaan oligopolistik bisa memperkecil ancaman potensial akibat langkah

strategis pesaingnya.

Setiap model teori permainan terdiri atas pemain, strategi dan ganjaran. Pemain adalah

para pembuat keputusan (para manajer) yang perilakunya akan berusaha kita jelaskan dan

ramalkan. Strategi adalah pilihan untuk mengubah harga, mengembangkan produk baru,

melakukan kampanye iklan, membangun kapasitas baru, dan tindakan serupa lainnya yang

Page 5: Dilemma Tahanan

mempengaruhi penjualan dan tingkat laba perusahaan serta pesaingnya. Ganjaran adalah hasil

atau konsekuensi dari setiap pilihan strategis.

Permainan berjumlah nol adalah permaianan dimana keuntungan salah satu pemain

merupakan akibat dari pengeluaran dan keuntungan ini secara persis seimbang dengan kerugian

pemain lainnya.

Namun jika keuntungan atau kerugian salah satu perusahaan tidak diakibatkan oleh biaya

atau memberikan keuntungan dalam jumlah yang sama peda perusahaan lain, maka melakukan

permainan tidak berjumlah nol. Misalkan kemungkinan itu muncul jika peningkatan iklan

diarahkan untuk meningkatkan laba kedua perusahaan dan menggunakan laba, bikan pangsa

pasar sebagai ganjaran, melakukan permainan berjumlah positif. Namun, jika meningkatnya

iklan memunculkan biaya lebih besar dari pada pendapatan dan laba kedua perusahaan menurun

menghadapi kasus permainan berjumlah negatif.

Persaingan Harga dan Nonharga, Kecurangan dalam Kartel, dan Dilema Tahanan

Dilema Tahanan

Dilema tahanan (DT) adalah sebuah contoh kanonis dari sebuah permainan yang dianalisa

dalam teori permainan yang memperlihatkan kenapa dua individu mungkin tidak akan bekerja

sama, bahkan jika demi kebaikan mereka sendiri untuk melakukan hal tersebut. Ia diciptakan

pada mulanya oleh Merrill Flood dan Melvin Dresher yang bekerja di RAND pada tahun

1950. Albert W. Tucker memformulasikan permainan tersebut dengan imbalan hukuman penjara

dan menamakannya dengan "dilema tahanan" (Poundstone, 1992), seperti cerita berikut:

Dua anggota geng kriminal tertangkap dan dipenjara. Setiap tahanan berada dalam ruangan

tersendiri tanpa bisa saling berbicara atau menukar pesan. Polisi mengakui bahwa mereka tidak

memiliki cukup bukti untuk menghukum pasangan tersebut. Mereka berencana menghukum

keduanya satu tahun penjara dengan dakwaan terendah. Bersamaan dengan itu, polisi

memberikan setiap tahanan sebuah penawaran Faustian. Jika salah satu dari mereka bersaksi

melawan teman mereka, ia akan dibebaskan sedangkan temannya akan dihukum tiga tahun

penjara. Jika kedua tahanan saling bersaksi, keduanya akan dihukum dua tahun penjara.

Dalam versi klasik permainan ini, kolaborasi didominasi oleh pengkhianatan; jika seorang

tahanan memilih untuk tetap diam, maka tahanan lain mendapatkan balasan lebih baik dengan

berkhianat daripada tetap diam (tanpa dihukum bukannya satu tahun penjara), tapi jika seorang

Page 6: Dilemma Tahanan

tahanan memilih untuk berkhianat, maka tahanan lain masih tetap mendapatkan imbalan yang

cukup baik dengan berkhianat juga (dua tahun bukannya tiga tahun penjara). Karena berkhianat

selalu memberikan imbalan lebih daripada berkooperasi, semua tahanan yang sepenuhnya

rasional egois akan mengkhianati yang lainnya, dan satu-satunya hasil dari dua tahanan rasional

egois adalah saling mengkhianati. Bagian yang menarik dari hasil ini adalah mengejar imbalan

individu secara logika mengarah pada kedua tahanan berkhianat, tapi mereka akan mendapatkan

imbalan yang lebih baik jika mereka saling berkooperasi. Dalam dunia nyata, manusia

memperlihatkan bias sistematis terhadap perilaku kooperatif dalam permainan ini dan permainan

yang mirip lainnya, lebih dari apa yang diprediksi oleh model sederhana dari aksi "rasional"

egoistis.

Ada juga versi "iteratif" dari permainan ini, di mana permainan klasik dimainkan terus

menerus terhadap tahanan yang sama, dan akibatnya, kedua tahanan terus menerus memiliki

kesempatan untuk menghukum yang lain berdasarkan pilihan mereka sebelumnya. Jika jumlah

permainan yang dilakukan diketahui oleh pemain, maka (dengan induksi mundur) duah tahanan

yang sepenuhnya rasional akan saling mengkhianati berulang kali, dengan alasan yang sama

pada versi klasiknya. Dalam permainan yang panjang dan tak terbatas tidak ada strategi pasti

yang optimal, dan pertandingan Dilema Tahanan telah dilakukan untuk mengadu dan menguji

algoritma-algoritma.

Dalam penggunaan sehari-hari, label "dilema tahanan" bisa diterapkan pada situasi yang

tidak harus benar-benar sama dengan kriteria formal dari permainan klasik atau iteratif:

misalnya, permainan dengan dua entitas yang bisa mendapatkan keuntungan dari berkooperasi

atau menderita dari kegagalan berkooperasi, tapi menemukannya sulit atau membutuhkan biaya

tinggi, tidak harus sesuatu yang mustahil, untuk mengkoordinasi aktivitas mereka untuk

berkooperasi.

Strategi untuk dilema tahanan klasik

Permainan yang normal diperlihatkan seperti di bawah:

Tahanan B tetap diam

(kooperasi)

Tahanan B berkhianat

(bertahan)

Tahanan A tetap diam

(kooperasi)Setiapnya dihukum 1 tahun

Tahanan A: 3 tahun

Tahanan B: bebas

Page 7: Dilemma Tahanan

Tahanan A berkhianat

(bertahan)

Tahanan A: bebas

Tahanan B: 3 tahunSetiapnya dihukum 2 tahun

Di sini, tanpa memperhatikan apa yang orang lain pilih, setiap tahanan mendapatkan

imbalan yang tinggi dari berkhianat (bertahan). Alasannya mengikutkan sebuah argumen

dengan dilema: B akan memilih berkooperasi atau bertahan. Jika B berkooperasi, A seharusnya

bertahan, karena menjadi bebas lebih baik daripada dipenjara 1 tahun. Jika B bertahan, A juga

seharusnya bertahan, karena dipenjara 2 tahun lebih baik daripada 3 tahun. Jadi pilihan manapun,

A seharusnya bertahan. Alasan yang sama juga akan memperlihatkan kenapa B juga harus

bertahan.

Sebagai contohnya, Tahanan A bisa (seperti pada tabel imbalan di atas) mengatakan bahwa

apapun yang dipilih tahanan B, tahanan A akan lebih baik bila 'berkhianat' (bertahan) daripada

tetap diam (kooperasi).

Dalam teori permainan tradisional, beberapa asumsi terbatas berlaku terhadap perilaku

tahanan. Diasumsikan bahwa keduanya memahami alur dari permainan, dan walaupun keduanya

dari anggota geng yang sama, mereka tidak memiliki loyalitas terhadap satu sama lain dan tidak

memiliki kesempatan untuk retribusi atau melakukan pembalasan di luar permainan. Yang paling

penting, interpretasi yang sangat sempit dari "rasionalitas" diterapkan dalam mendefinisikan

strategi-strategi pemilihan-keputusan dari tahanan. Dengan kondisi-kondisi dan imbalan seperti

di atas, tahanan A akan mengkhianati tahanan B. Permainan ini simetris, sehingga tahanan B

akan beraksi dengan cara yang sama. Secara keduanya "secara rasional" memilih untuk bertahan,

setiap mereka memperoleh imbalan lebih rendah daripada jika keduanya tetap diam. Teori

permainan tradisional membuat kedua pemain mendapatkan hasik yang buruk kecuali jika tiap-

tiap mereka memilih untuk mengurangi hukuman teman mereka dengan biaya memberikan

waktu lebih di penjara bagi mereka sendiri.

Bentuk umum

Struktur dari Dilema Tahanan tradisional dapat digeneralisasi dari bentuk tahanan aslinya.

Misalkan dua pemain direpresentasikan oleh warna, merah dan biru, dan setiap pemain memilih

baik itu "Kooperasi" atau "Bertahan".

Jika kedua pemain berkooperasi, mereka menerima imbalan, R, untuk kooperasi. Jika Biru

bertahan sementara Merah berkooperasi, maka Biru menerima godaan, imbalan T sementara

Merah menerima imbalan S, "si pecundang". Hal yang sama, jika Biru berkooperasi sementara

Page 8: Dilemma Tahanan

Merah bertahan, maka Biru menerima imbalan si pecundang S sementara Merah menerima

imbalan godaan, T. Jika kedua pemain bertahan, keduanya menerima hukuman imbalan P.

Hal ini bisa diekspresikan dalam b entuk normal :

Matriks imbalan DT kanonis

Kooperasi Bertahan

Kooperasi R, R S, T

Bertahan T, S P, P

dan supaya permainan dilema tahanan menjadi bentuk kuat, kondisi berikut harus berlaku

bagi imbalannya:

T > R > P > S

Hubungan imbalan R > P menyiratkan bahwa saling kooperasi lebih tinggi daripada saling

bertahan, sementara hubungan imbalan antara T > R dan P > S menyiratkan bahwa bertahan

adalah strategi dominan bagi kedua agen. Oleh karena itu, saling bertahan adalah satu-

satunya ekuilibrium Nash dalam permainan (yaitu, satu-satunya hasil dari setiap pemain dapat

lakukan lebih buruk dengan secara sepihak mengganti strategi). Dilemanya adalah saling

kooperasi mengeluarkan hasil lebih baik daripada saling bertahan tapi bukan hasil yang rasional

karena pilihan untuk berkooperasi, pada tingkat individu, bukanlah rasional dari pandangan

egoistis.

Dilema tahanan berulang

Jika dua pemain memainkan dilema tahanan lebih dari satu kali berurutan dan mereka

dapat mengingat aksi sebelumnya dari lawan mereka dan mengubah strategi mereka berdasarkan

aksi lawan, maka permainannya disebut dilema tahanan berulang (DTB).

Sebagai tambahan dari bentuk umum di atas, versi iteratif juga membutuhkan 2R > T + S,

untuk mencegah pergantian kooperasi dan bertahan memberikan imbalan lebih besar daripada

saling kooperasi.

Permainan DTB adalah dasar bagi beberapa teori-teori persekutuan dan kooperasi manusia.

Dengan asumsi bahwa permainan tersebut dapat memodelkan transaksi antara dua orang yang

membutuhkan kepercayaan, perilaku kooperatif dalam populasi bisa dimodelkan dengan versi

permainan banyak-pemain dan berulang. Hal tersebut, konsekuensinya, telah menarik banyak

ahli selama beberapa tahun. Di tahun 1975, Grofman dan Pool memperkirakan jumlah artikel

Page 9: Dilemma Tahanan

ilmiah yang ditujukan untuk ini lebih dari 2.000. Dilema tahanan berulang juga telah disebut

sebagai "Permainan perang-damai".

Jika permainan dimainkan pasti N kali dan kedua pemain mengetahui hal tersebut, maka

secara teoritis optimasi permainan adalah bertahan di semua ronde. Satu-satunya

kemungkinan ekuilibrium Nash adalah untuk selalu bertahan. Pembuktiannya adalah induktif:

salah seorang pemain bisa bertahan pada akhir permainan, karena lawan tidak memiliki

kesempatan untuk menghukum pemain. Oleh sebab itu, keduanya akan bertahan pada ronde

terakhir. Maka, pemain tentunya juga akan bertahan pada ronde kedua terakhir, karena lawan

pada akhirnya akan bertahan walau apapun yang terjadi, dan seterusnya. Hal yang sama berlaku

jika lama permainan tidak diketahui tapi memiliki batas atas yang diketahui.

Tidak seperti dilema tahanan biasa, dalam DTB strategi bertahan adalah kontra-intuitif dan

gagal memprediksi perilaku dari pemain manusia. Dalam teori ekonomi biasa, bagaimanapun,

hal ini merupakan satu-satunya jawaban yang benar. Strategi superrasional dalam DTB

dengan N tetap adalah untuk berkooperasi melawan lawan yang superrasional, dan dengan

batasN yang besar, hasil percobaan dari strategi-strategi sesuai dengan versi superrasional, bukan

dengan teori permainan rasional.

Supaya kooperasi muncul antara pemain dalam permainan teoritis rasional, jumlah

ronde N haruslah acak, atau tidak diketahui oleh pemain. Dalam kasus ini 'selalu bertahan' bukan

lagi strategi dominan, hanya sebuah ekuilibrium Nash. Di antara hasil-hasil yang diperlihatkan

oleh Robert Aumann di sebuah makalah tahun 1959, pemain rasional yang berulang kali

berinteraksi dalam permainan yang panjang tak terbatas dapat mengalami hasil kooperatif.

Strategi bagi dilema tahanan berulang

Ketertarikan pada DTB disulut oleh Robert Axelrod dalam bukunya The Evolution of

Cooperation (1984). Dalam buku tersebut dia melaporkan sebuah turnamen yang diorganisirnya

lewat N langkah dilema tahanan (dengan N tetap) dengan setiap partisipan harus memilih strategi

mutual mereka lagi dan lagi, dan memiliki ingatan akan pilihan lawan sebelumnya. Axelrod

mengundang teman-teman akademis seluruh dunia untuk merancang strategi komputer untuk

berkompetisi dalam turnamen DTB. Program-program yang diajukan memiliki keragaman

kompleksitas algoritma, sikap permusuhan awal, kapasitas untuk memaafkan, dan seterusnya.

Axelrod menemukan bahwa saat turnamen tersebut diulang selama waktu yang lama

dengan banyak pemain, setiapnya dengan strategi yang berbeda, strategi tamak condong kurang

Page 10: Dilemma Tahanan

baik dalam jangka panjang sementara strategi altruistik malah lebih baik, dinilai murni dari

keegoisan. Dia menggunakan hal ini untuk memperlihatkan mekanisme yang memungkinan bagi

evolusi perilaku altruistik dari mekanisme yang awalnya murni egois, dengan seleksi alam.

Strategi deterministik yang menang adalah tit untuk tat, yang Anatol

Rapoport kembangkan dan ajukan untuk turnamen. Ia adalah program paling sederhana, hanya

memiliki empat baris kode BASIC, dan memenangkan kontes. Strateginya secara sederhana

berkooperasi pada iterasi pertama permainan; setelah itu, pemain melakukan apa yang lawannya

lakukan sebelumnya. Bergantung pada situasi, strategi yang sedikit lebih baik adalah "tit untuk

tat dengan memaafkan." Saat lawan bertahan, pada ronde selanjutnya, si pemain terkadang tetap

berkooperasi, dengan probabilitas kecil (sekitar 1-5%). Hal ini membolehkan pemulihan tak

berkala dari terperangkap dalam lingkaran bertahan. Probabilitas pastinya bergantung pada

lawan.

Dengan menganalisa strategi-strategi top-skor, Axelrod menyatakan beberapa kondisi

diperlukan bagi sebuah strategi untuk sukses.

Baik

Kondisi paling penting yaitu strategi haruslah "baik", yakni, ia tidak akan bertahan sebelum

lawannya bertahan (hal ini terkadang disebut juga dengan algoritma "optimistik"). Hampir semua

strategi top-skor adalah baik; oleh karena itu, strategi yang murni egois tidak akan "menipu"

lawannya, murni karena alasan egoistis.

Balas dendam

Namun, Axelrod berpendapat, strategi yang sukses haruslah tidak optimis buta. Ia

terkadang harus balas dendam. Salah satu contoh strategi tanpa-pembalasan adalah Selalu

Kooperasi. Hal ini adalah pilihan yang buruk, karena strategi-strategi yang "keji" akan

mengeksploitasi pemain seperti itu.

Memaafkan

Strategi yang sukses juga harus memaafkan. Walau pemain akan membalas dendam,

mereka nantinya akan kembali berkooperasi jika lawan tidak terus bertahan. Hal ini

menghentikan balas dendam yang berkepanjangan, memaksimalkan poin.

Tidak iri

Kualitas terakhir adalah menjadi tidak iri, yaitu tidak mencoba mendapatkan nilai lebih

dari lawan (perlu diingat bahwa strategi "baik" tidak pernah memperoleh nilai lebih dari lawan).

Page 11: Dilemma Tahanan

Strategi optimal untuk DT untuk sekali main adalah bertahan; seperti yang dijelaskan di

atas, hal ini benar apapun komposisi dari lawan yang terjadi. Namun, dalam permainan DTB

strategi optimal bergantung kepada strategi dari lawan, dan bagaimana mereka bereaksi terhadap

bertahan dan kooperasi. Sebagai contohnya, bayangkan sebuah populasi yang setiap orang selalu

bertahan, kecuali satu yang menggunakan strategi tit-untuk-tat. Individu tersebut sedikit

dirugikan karena kalah pada giliran pertama. Dalam populasi tersebut, strategi optimal bagi

individu tersebut adalah untuk selalu bertahan. Dalam sebuah populasi dengan sejumlah

persentase selalu-bertahan dan sisanya pemain tit-untuk-tat, strategi optimal bagi seorang

individu bergantung kepada persentase selalu-bertahan, dan lama permainan.

Dalam strategi yang dikenal dengan Pavlov, menang-tinggal, kalah-ganti, jika ronde

terakhir menghasilkan P,P, pemain Pavlov berganti strategi di giliran selanjutnya, yang

berarti P,P akan dianggap sebagai sebuah kegagalan utuk berkooperasi. Untuk beberapa rentang

parameter, Pavlov mengalahkan strategi lainnya dengan memberikan perlakuan istimewa bagi

pemain lain yang mirip Pavlov.

Menurunkan strategi optimal secara umum dilakukan dengan dua cara:

1. Ekuilibrium Nash Bayesian : Jika distribusi statistik dari strategi lawan dapat ditentukan

(misalnya 50% tit-untuk-tat, 50% selalu kooperasi) sebuah kontra-strategi optimal dapat

diturunkan secara analitis.

2. Simulasi populasi Monte Carlo telah dilakukan, yang mana individu dengan nilai rendah

mati, dan yang bernilai tinggi bereproduksi (sebuah algoritma genetis untuk menemukan

strategi optimal). Campuran dari algoritma pada populasi akhir pada umumnya bergantung

pada campuran pada populasi awal. Munculnya mutasi (variasi acak selama reproduksi)

mengurangi kebergantungan pada populasi awal; percobaan empiris untuk sistem seperti itu

condong menghasilkan pemain dengan tit-untuk-tat (lihat contohnya Chess 1988), tapi tidak

ada bukti analitis bahwa ini akan selalu terjadi.

Walaupun tit-untuk-tat dianggap sebagai strategi dasar paling kuat, sebuah tim

dari Universitas Southampton di Inggris (dipimpin oleh Profesor Nicholas Jennings dan terdiri

dari Rajdeep Dash, Sarvapali Ramchurn, Alex Rogers, Perukrishnen Vytelingum) mengenalkan

sebuah strategi baru pada peringatan ke-20 kompetisi DTB, yang membuktikan lebih sukses

daripada tit-untuk-tat. Strategi ini bergantung pada kooperasi antara program untuk mendapatkan

poin tertinggi untuk sebuah program tunggal. Universitas tersebut mengajukan 60 program untuk

Page 12: Dilemma Tahanan

kompetisi, yang dirancang untuk mengenali satu sama lain lewat sekumpulan lima sampai

sepuluh gerakan pada saat mulai. Sekali dikenali, satu program akan selalu kooperasi dan yang

lainnya akan bertahan, memastikan jumlah poin maksimal bagi yang bertahan. Jika program

tersebut menyadari bahwa ia bermain dengan pemain bukan dari Southampton, ia akan terus

menerus bertahan supaya meminimalkan nilai dari program lawan. Sebagai hasilnya, strategi

tersebut berakhir mendapatkan posisi tiga teratas dalam kompetisi, sebagaimana juga sejumlah

posisi terendah.

Strategi ini mengambil keuntungan dari fakta bahwa beberapa entri dibolehkan dalam

kompetisi tersebut dan performansi dari sebuah tim dihitung dari pemain dengan nilai tertinggi

(yang berarti bahwa penggunaan pemain yang rela berkorban merupakan sebuah bentuk

dari minmaxing). Dalam sebuah kompetisi dengan seseorang hanya bisa mengatur satu pemain

saja, tit-untuk-tat sudah pasti strategi yang lebih baik. Karena aturan yang baru ini, kompetisi ini

juga memiliki sedikit signifikansi teoritis saat menganalisa strategi-strategi agen tunggal

dibandingkan dengan turnamen Axelrod. Namun, ia menyediakan kerangka kerja untuk

menganalisa bagaimana mendapatkan strategi-strategi kooperatif dalam kerangka kerja multi-

agen, terutama dengan adanya kekacauan. Pada kenyataannya, jauh sebelum aturan baru dari

turnamen ini dimainkan,Richard Dawkins dalam bukunya The Selfish Gene menunjukkan

kemungkinan strategi tersebut menang jika beberapa entri dibolehkan, tapi ia mengatakan bahwa

kemungkinan Axelrod tidak akan membolehkannya jika mereka telah diajukan. Ia juga

bergantung pada aturan-aturan yang melingkupi dilema tahanan yang mana komunikasi tidak

dibolehkan antara dua pemain. Saat program Southampton sedang melakukan "tarian sepuluh

gerakan" untuk mengenali yang lainnya, hal ini hanya menguatkan bagaimana bernilainya

komunikasi dalam mengubah keseimbangan dalam permainan.

Dilema tahanan berulang berkelanjutan

Kebanyakan pekerjaan dalam DTB telah berfokus pada kasus diskrit, dengan pemain bisa

kooperasi atau bertahan, karena model tersebut relatif lebih mudah untuk dianalisa. Namun,

beberapa peneliti telah melihat model-model dari DTB berkelanjutan, dengan pemain yang

mampu membuat sejumlah kontribusi ke pemain lainnya. Le dan Boyd  menemukan bahwa

dalam situasi tersebut, kooperasi lebih sulit berkembang dibandingkan dalam DTB terbatas.

Intuisi dasar dari hasil ini adalah sederhana: dalam sebuah dilema tahanan berkelanjutan, jika

sebuah populasi berawal dalam ekuilibrium non-kooperatif, pemain yang secara marjinal lebih

Page 13: Dilemma Tahanan

kooperatif daripada non-kooperator mendapatkan sedikit keuntungan dari berpasangan dengan

yang lainnya. Sebaliknya, dalam dilema tahanan terbatas, pemain tit-untuk-tat mendapatkan

kenaikan imbalan yang besar berpasangan dengan satu sama lain dalam ekuilibrium non-

kooperatif, relatif terhadap non-kooperator. Karena alam bisa dikatakan memberikan kesempatan

lebih bagi variabel kooperasi daripada sebuah dikotomi ketat dari kooperasi atau bertahan,

dilema tahanan berkelanjutan bisa membantu menjelaskan kenapa contoh-contoh dunia nyata

dari kooperasi seperti tit-untuk-tat sangat jarang sekali di alam (ex. Hammerstein  ) walaupun tit-

untuk-tat tampak lebih kuat dalam model-model teoritis.

Contoh-contoh dunia nyata

Contoh-contoh khusus berikut, mengikutkan tahanan dan pergantian kantong dan

seterusnya, mungkin tampak dibuat-buat, tapi pada kenyataannya banyak contoh dalam interaksi

manusia seperti halnya interaksi dalam alam yang memiliki matriks imbalan yang sama. Dilema

tahanan oleh sebab itu menarik bagi ilmu sosial seperti ekonomi, politik, dan sosiologi, dan juga

pada ilmu biologi seperti etologi dan biologi evolusioner. Banyak proses-proses alamiah telah

diabstraksikan menjadi model-model yang mana makhluk hidup melakukan permainan tanpa

akhir dari dilema tahanan. Luasnya penerapan dari dilema tahanan memberikan permainan

tersebut kepentingan yang besar.

Iklan terkadang disebut sebagai contoh nyata dari dilema tahanan. Saat Iklan rokok masih

legal di A.S., pabrik rokok harus menentukan berapa banyak uang yang dikeluarkan untuk iklan.

Efektifitas dari iklan Perusahaan A sebagian ditentukan oleh iklan yang dilakukan oleh

perusahaan B. Begitu pula, profit yang didapat dari iklan untuk perusahaan B dipengaruhi oleh

iklan yang dilakukan perusahaan A. Jika kedua perusahaan, A dan B, memilih untuk beriklan

pada waktu tertentu maka iklan dibatalkan, pemasukan tetap konstan, dan pengeluaran

meningkat karena biaya iklan. Kedua perusahaan akan diuntungkan dari reduksi beriklan.

Namun, bila Perusahaan B harus memilih untuk tidak beriklan, Perusahaan A bisa diuntungkan

oleh iklan. Meskipun demikian, jumlah optimal dari iklan oleh satu perusahaan bergantung pada

berapa banyak iklan oleh yang lain lakukan. Karena strategi terbaik bergantung pada apa yang

perusahaan lain pilih, tidak ada strategi dominan, yang membuatnya sedikit berbeda dengan

dilema tahanan. Hasilnya sama, bagaimanapun juga, bahwa kedua perusahaan akan lebih baik

jika mereka beriklan lebih sedikit dari ekuilibrium. Terkadang perilaku kooperatif muncul dalam

situasi bisnis. Sebagai contohnya, pabrik-pabrik rokok mendukung pembuatan undang-undang

Page 14: Dilemma Tahanan

melarang iklan rokok, mengetahui bahwa hal ini akan mengurangi biaya dan meningkatkan

profit.

Tanpa persetujuan yang terpaksa, anggota dari sebuah kartel juga ikut dalam suatu dilema

tahanan (banyak-pemain). Kooperasi' biasanya berarti menjaga harga pada tingkat minimum

yang sebelumnya disetujui. 'Bertahan' berarti menjual pada tingkat minimum, langsung

mengambil bisnis (dan profit) dari anggota kartel lainnya. Pihak berwenang anti-

monopolimenginginkan anggota kartel untuk saling bertahan, menjaga harga terendah yang

memungkinkan bagi konsumer.

Permainan yang berkaitan

Bertukar tas-tertutup

Hofstadter adalah yang pertama menyarankan bahwa orang terkadang menemukan

permasalahan seperti masalah DT mudah untuk dipahami bila digambarkan dalam bentuk

permainan sederhana, atau imbalan. Salah satu dari beberapa contoh yang dia gunakan adalah

"bertukar tas tertutup":

Dua orang bertemu dan bertukar tas yang tertutup, dengan mengetahui bahwa salah satu

darinya berisi uang, dan yang lainnya berisi barang. Kedua pemain bisa memilih menghormati

persetujuan tersebut dengan mengisi tas mereka dengan apa yang telah disetujui, atau mereka

bisa bertahan dengan mengosongkan isi tas mereka.

Dalam permainan ini, bertahan adalah pilihan terbaik, menyiratkan bahwa agen yang

rasional tidak akan pernah bermain. Namun, dalam kasus ini kedua pemain berkooperasi dan

bertahan hasilnya sama saja, dengan asumsi tidak ada manfaat dari dagang, sehingga kesempatan

untuk saling kooperasi, bahkan dalam permainan berulang, sangat sedikit.

Friend or Foe? (Teman atau Musuh?)

Friend or Foe? adalah sebuah permainan yang disiarkan sejak tahun 2002 sampai 2005

di Game Show Network di A.S.. Ia merupakan contoh dari permainan dilema tahanan yang diuji

pada orang, tapi dalam pengaturan artifisial. Dalam acara tersebut, tiga pasang orang

berkompetisi. Saat sepasang dieliminasi, mereka memainkan sebuah permainan yang mirip

dengan dilema tahanan untuk menentukan bagaimana hasil kemenangan dibagikan. Jika

keduanya berkooperasi (Friend), mereka membagi hasil 50-50. Jika salah satu berkooperasi dan

yang lainnya bertahan (Foe), yang bertahan mendapatkan semua hadiah dan yang berkooperasi

tidak mendapatkan apapun. Jika keduanya bertahan, keduanya tidak mendapatkan apapun.

Page 15: Dilemma Tahanan

Perhatikan bahwa matriks imbalannya sedikit berbeda dari standar seperti di atas, karena imbalan

untuk kasus "keduanya bertahan" dan "kooperasi dan lawan bertahan" adalah identik. Hal ini

membuat kasus "keduanya bertahan" sebagai ekuilibrium lemah, dibandingkan dengan

ekuilibrium ketat pada dilema tahanan standar. Jika anda tahu lawan anda akan memilih Foe,

maka pilihan anda tidak mempengaruhi kemenangan anda. Dalam makna lainnya, Friend or

Foe memiliki model imbalan antara dilema tahanan dan permainan Ayam.

Matriks imbalannya adalah:

Kooperasi Bertahan

Kooperasi 1, 1 0, 2

Bertahan 2, 0 0, 0

Matriks imbalan tersebut juga telah digunakan dalam program televisi Britis Trust

Me, Shafted, The Bank Job, dan Golden Balls, dan acara-acara di A.S. seperti Bachelor

Pad dan Take It All. Data permainan dari serial Golden Balls telah dianalisa oleh tim ahli

ekonomi, yang menemukan bahwa kooperasi "sangat tinggi" untuk sejumlah uang yang cukup

berasa di dunia nyata, tapi secara komparatif rendah dalam konteks permainan.

Snowdrift berulang

Para peneliti dari Universitas Lausanne dan Universitas Edinburgh telah menyarankan

bahwa "Permainan Snowdrift Berulang" mungkin lebih dekat merefleksikan situasi sosial dunia

nyata. Dalam model ini, resiko dieksploitasi lewat bertahan lebih rendah, dan individu selalu

diuntungkan dari berkooperasi. Permainan snowdrift membayangkan dua pengemudi yang

terjebak di sisi berlawanan dari sebuah snowdrift, setiapnya diberikan pilihan untuk mencangkul

salju untuk membersihkan jalan, atau tetap di dalam mobil. Imbalan terbesar bagi pemain didapat

dari meninggalkan lawan dengan membersihkan salju secara sendiri, tapi lawan masih tetap

diberi imbalan bagi kerja mereka.

Hal ini mungkin lebih merefleksikan skenario dunia nyata, para peneliti memberikan

contoh dua orang ilmuwan berkolaborasi dalam sebuah laporan, keduanya bisa diuntungkan jika

yang lain bekerja keras. "Tapi jika teman kerja anda tidak melakukan kerja apapun, maka lebih

baik bagi anda untuk mengerjakannya sendiri. Anda akan tetap berakhir dengan sebuah proyek

yang selesai." [21]

Page 16: Dilemma Tahanan

Contoh imbalan Snowdrift (A, B)

A kooperasi A bertahan

B kooperasi 200, 200 300, 100

B bertahan 100, 300 0, 0

Contoh Imbalan (A, B)

A kooperasi A bertahan

B kooperasi 200, 200 300, −100

B bertahan −100, 300 0, 0

Persaingan Harga dan Dilema Tahanan

Konsep dilema tahanan dapat digunakan untuk menganalisis persaingan harga dan

nonharga dalam pasar oligopolistik, selain juga dalam hal kecenderungan untuk berbuat curang

(yaitu, untuk secara diam-diam mengurangi harga atau menjual lebih banyak dari kuota) di

dalam kartel. Persaingan harga oligopolistik yang terjadi bersamaan dengan situasi dilema

tahanan.

Perusahaan mengalami dilema tahanan apabila setiap perusahaan akan menentukan harga

lebih rendah dan memperoleh laba yang lebih kecil karena jika menentukan harga tinggi,

perusahaan tersebut tidak bisa mempercayai bahwa pesaingnya juga akan menentukan harga

yang mahal.

Persaingan Nonharga, Kecurangan dalam Kartel dan Dilema Tahanan

Meskipun mtriks ganjaran digunakan untuk mengkaji persaingan harga oligopolistik dalam

menghadapi dilema tahanan, dengan hanya mengganti judul masing-masing kolom dan baris

matriks itu, dapat menggunakan matriks yang sama untuk membahas persaingan nonharga dan

kecurangan dalam kartel.

Namun demikian, semakin besar jumlah anggota kartel dan semakin banyak produk yang

berbeda, semakin sulit bagi kartel untuk melakukan pengawasan dan mencegah terjadinya

kecurangan.

Page 17: Dilemma Tahanan

Konsep dilema tahanan dapat digunakan untuk menganalisis persaingan harga dannon

harga dalam pasar oligopolistik, juga kecenderungan berbuat curang (secara diam-diam

mengurangi harga atau menjual lebih banyak dari kuota)

Tabel 3. Matriks gambaran untuk permainan penentuan harga

Perusahaan B

Harga rendah Harga tinggi

Perusahaan A Harga rendah (2,2) (5,1)

Harga tinggi (1,5) (3,3)

Perusahaan A harus menentukan strategi dominannya untuk menentukan harga rendah

Jika perusahaan bekerja sama menentukan harga yang lebih tinggi maka keduanya memperoleh

laba masing-masin 3. Kedua perusahaan mengalami dilema tahanan. (kemungkinan perusahaan

pesaingberlaku curang).

Permainan yang Berulang-ulang dan Strategi Tit-For-Tat

Dalam permainan yang berulang-ulang (repeated games- yaitu permainan yang melibatkan

banyak gerakan dan juga gerakan berbalasan dari setiap pemain), strategi terbaik bagi setiap

pemain adalah tit-for-tat. Perilaku satu-dibalas-satu (tit-for-tat) ditemukan secara konsisten

sebagai strategi yang terbaik (artinya, strategi yang menghasilkan manfaat terbesar)bagi setiap

permain sejalan dengan berjalannya waktu.

Namun demikian, agar strategi dapat berfungsi dengan baik maka beberapa kondisi harus

terpenuhi. Diperlukan sekumpulan pemain yang stabil Jumlah pemain harus

sedikit. Diasumsikan bahwa setiap perusahaan dapat dengan cepat mendeteksi kecurangan yang

bisa berlangsung tanpa terdeteksi dalam waktu yang lama memupuk kecurangan. Kondisi

permintaan dan biaya harus relatif stabil. Asumsikan bahwa permainan tersebut terus berulang-

ulang tanpa batas, atau dalam jumlah pengulangan yang sangat besar dan tidak pasti.

Langkah Strategis

Ancaman, Komitmen, dan Kredibilitas

Perusahaan oligopolistik sering menggunakan beberapa strategi untuk mencapai

keunggulan kompetitif atas pesaingnya, meskipun itu membatasi perilaku mereka sendiri atau

untuk sementara mengurangi jumlah keuntungan mereka. Ancaman bisa dipastikan memiliki

Page 18: Dilemma Tahanan

kredibilitas, misalnya dengan menulis sebuah surat komitmen kepada para pelanggan untuk

menyamai harga produk pesaing yang lebih rendah.

Sebuah cara membuat ini dapat dipercaya adalah perusahaan membangun sebuah reputasi

sebagai perusahaan yang menjalankan ancaman, meskipun ini berarti mengurangi labanya.

Dengan menunjukan komitmen untuk menjalankan ancamannya, perusahaan membuat

ancamannya memiliki kredibilitas dan meningkatkan labanya sejalan dengan berlalunya waktu.

Hambatan Masuk

Salah satu strategi penting yang bisa digunakan oleh seorang oligopolis untuk menghambat

masuknya perusahaan baru ke dalam pasar adalah mengancam akan menurunkan harganya

sehingga menyebabkan kerugian bagi pemain baru yang potensial. Meskipun demikian, ancaman

seperti itu hanya akan ditanggapi jika memiliki kredibilitas. Hambatan masuk bisa dikaji dengan

menggunakan matriks ganjaran.

Perilaku Strategis dan Daya Saing Internasional

Teori permainan juga bisa digunakan untuk mengkaji kebijakan strategis perdagangan dan

industri, sehingga suatu negara dapat memperoleh keunggulan kompetitif atas negara lain,

khususnya dalam bidang teknologi tinggi.

Satu kelemahan mendasar dari analisis ini adalah bahwa biasanya sulit untuk meramalkan

secara akurat hasil dari kebijakan industri dan perdagangan pemerintah yaitu, memperoleh data

dari hasil kebijakan industri dan perdagangan pemerintah. Namun demikian, mengambil dari

analisis yang salah bisa merugikan dan bahkan mengakibatkan gagalnya perusahaan.

Permainan Berurutan dan Pohon Keputusan

Beberapa pilihan atau permainan strategis pada hakikatnya berurutan pada strategi yang

tebaik atau langkah setiap pemain tergantung langkah pemain lain sebelumnya. Permainan

berurutan dapat ditunjukkan oleh pohon permainan atau keputusan. Pohon keputusan (decision

tree) adalah diagram dengan lingkaran dan cabang lingkaran menggambarkan titik dimana

keputusan dibuat dan cabang menunjukkan hasil setiap keputusan dalam setiap permainan

berurutan.

Page 19: Dilemma Tahanan

Susunan pohon keputusan dimulai dengan keputusan awal dan bergerak menuju ke seluruh

serangkaian keputusan berikutnya. Pada setiap titik keputusan harus dibuat, dan cabang pohom

mengulur sampai ke seluruh kemungkinan hasil dari permainan yang telah digambarkan.

Kemungkinan hasil dari permainan tersebut diberi ganjaran pada sisi kanan figur atau pohon

tersebut.

MODEL COURNOT

Model Cournot yang disebut juga sebagao duopoly, dikembangkan oleh Augustin Curnot

seorang ahli ekonomi berkebangsaan Perancis pada tahun 1838. Asumsi utama dari model ini

adalah bahwa jika sebuah perusahaan telah menentukan tingkat produksinya, maka perusahaan

tidak akan mengubahnya. Atas dasar asumsi inilah perusahaan pesaingnya akan menentukan

tingkat produksinya. Dalam pasar duopoly hanya terdapat dua perusahaan yang menjual produk

yang homogeny, dengan demikian hanya terdapat satu harga pasar. Harga pasar ditentukan oleh

kesimbangan antara jumlah total output yang dihasilkan oleh dua perusahaan dengan permintaan

pasar.

Keseimbangan dalam model Cournot ditunjukkan dengan gambar dibawah. Dalam hal ini

diasumsikan MC konstan dan sama denan AC.

Pada tahap awal, diasumsikan, bahwa Honda tidak berproduksi sama sekali. Model

Cournot mengasumsikan bahwa Yamaha menganggap Honda akan terus tidak berproduksi

berarpapun jumlah motor yang dproduks Yamaha. Jika ini terjadi, berarti Yamaha bertindak

sebagai pengusaha monopoli di pasar motor. Jumlah produksi yang memaksimuman keuntungan

Yamaha adalah sebesar Qm= 50, yaitu pada kondisi di mana MR=MC. Tingkat produksi

Yamaha ini adalah setengah dari produksi maksimum seandainya industry motor ini berada di

pasar yang bersaing sempurna yaitu sebesar 100.

Selanjutnya diasumsikan bahwa Honda memproduksi sebanyak 20 unit. Dengan kondisi ini

maka permintaan yang dihadapi oleh Yamaha adalah sebesar permintaan pasar dikurangi 20 unit.

Secara grafik hal ini berarti kurva permintaan Yamaha dimulai dari titik 20 dan tidak dari titik

nol lagi (garis AD). Dengan demikian, kurva MR Yamaha juga dimulai dari titik A. Untuk

mengasumsikan keuntungan Yamaha akan menyamakan MR dengan MC hingga tingkat

produksi optimalnya adalah 40 unit. Jumlah produksi total di pasar menjad 60 unit (20 unit dari

Honda + 40 unit dari Yamaha). Seandainya sekarang, Honda berproduksi 40 nit, maka kurva

Page 20: Dilemma Tahanan

permintaan dan kurva MR Yamaha juga akan dimulai di titik 40. Kondisi optimalnya dicapai

pada saat MR=MC yatu pada tingkat output 30 unit. Jumlah total produksi motor di pasar

menjadi 70 unit (40unit dari Honda +30 unit dari Yamaha). Dengan cara yang sama akan

diperoleh tingkat produksi Yamaha sebesar 20 unit jika Honda memproduksi sebanyak 60 unit,

dn 10 unit Yamaha jika Honda memproduksi 80 unit. Dari sini bisa dilihat bahwa tingkat

produski Yamaha adalah selalu setengah dari sisa permintaan pasar setelah dikurangi produksi

Yamaha.

Karena diasumsikan bahwa Honda mempunyai biaya yang sama, dan sesuai dengan asumsi

pada model Curnot, maka jumlah produksi motor yang dihasilkan oleh Honda tergantung pada

berapa tingkat produksi motor Yamaha. Honda akan menghasilkan setengah dari sisa permintaan

pasar setelah dikurangi produksi Yamaha.