16
Reinforcement Learning Paradigma baru dalam Machine Learnin g Ali Ridho Barakbah, S.Kom. Soft Computation Research Group, EEPIS-ITS Reinforcement Learning. Itulah topik yang akan saya perbincang kan disini. Walaupun ini sekedar tulisan biasa, bukan tulisan ilmiah, namun setidaknya ini mungkin bisa dianggap sebagai sharing knowledge yang mungkin bisa berma nfaat bagi rekan-rekan disini. KILAS BALIK Berbicara tentang Reinforcement Learning (RL), tidak terlepas dari sejarah berkembangnya bidang Artificial Intelligence (AI). Kalau anda t idak berkeberatan, saya akan mengajak anda memutar jam dinding anda, lalu menerobo s dimensi waktu, dan pergi ke awal tahun 1950-an. Adalah seorang yang bernama Alan Turing, seorang matematikaw an Inggris, di tahun 1950-an, mencoba membuat suatu mesin yang dinamakan Turing Machine dimana di dalamnya berisi game yang dibangun dari serangkaian algoritma sehingga mesin tersebut mampu bermain dengan manusia. Pada tahun 1956, Jo hn McCarthy, seorang professor dari MIT, mulai memperkenalkan bidang baru secara spesifik yang bernama Artificial Intelligence. Beliau mendefinisikan bidang itu sebagai “Bidang yang memodelkan proses -proses berpikir manusia dan mend esain mesin agar dapat menirukan kelakuan manusia” [1]. Mulailah dunia AI berkembang pesat, menjadi daya tarik ter sendiri bagi para peneliti dan pakar computer science. Hal ini bisa kita lihat dengan bermunculnya berbagai macam metode-metode yang dikembangkan pada bidang AI, mul

Reinforcement Learning

Embed Size (px)

DESCRIPTION

model pembelajaran

Citation preview

ReinforcementLearningParadigmabarudalamMachineLearning

AliRidhoBarakbah,S.Kom.SoftComputationResearchGroup,EEPIS-ITS

ReinforcementLearning.Itulahtopikyangakansayaperbincangkandisini.Walaupuninisekedartulisanbiasa,bukantulisanilmiah,namunsetidaknyainimungkinbisadianggapsebagaisharingknowledgeyangmungkinbisabermanfaatbagirekan-rekandisini.

KILASBALIK

BerbicaratentangReinforcementLearning(RL),tidakterlepasdarisejarahberkembangnyabidangArtificialIntelligence(AI).Kalauandatidakberkeberatan,sayaakanmengajakandamemutarjamdindinganda,lalumenerobosdimensiwaktu,danpergikeawaltahun1950-an.

AdalahseorangyangbernamaAlanTuring,seorangmatematikawanInggris,ditahun1950-an,mencobamembuatsuatumesinyangdinamakanTuringMachinedimanadidalamnyaberisigameyangdibangundariserangkaianalgoritmasehinggamesintersebutmampubermaindenganmanusia.Padatahun1956,JohnMcCarthy,seorangprofessordariMIT,mulaimemperkenalkanbidangbarusecaraspesifikyangbernamaArtificialIntelligence.BeliaumendefinisikanbidangitusebagaiBidangyangmemodelkanproses-prosesberpikirmanusiadanmendesainmesinagardapatmenirukankelakuanmanusia[1].

MulailahduniaAIberkembangpesat,menjadidayatariktersendiribagiparapenelitidanpakarcomputerscience.Halinibisakitalihatdenganbermunculnyaberbagaimacammetode-metodeyangdikembangkanpadabidangAI,mulaidariteorigraph,teoritree,teoristate,knowledgebasedsystem,sampaiexpertsystemyangberbasisprobabilisticmodel.

Menariknya,sebelummasaberkembangnyaAIyangberorientasipadapemodelancaraberpikirmanusia,parascientistsebenarnyajugaberusahamengembangkanpemodelancaraberpikirmanusia.Padaawaltahun1940-an,merekamelakukanrisetterhadapmekanismeberpikirpadastrukturotakmanusia.ItulahawalberkembangnyaapayangdinamakandenganNeuralNetwork(NN).

Yanglebihmenariklagiadalah,meskipunberorientasipadapemodelancaraberpikirmanusia,berkembangNNdanAIseakan-akandalamduaduniayangberbeda.Olehkarenaitu,bisakitamaklumiadaperbedaanpendapatdikalanganpakarcomputerscienceapakahNNbisadikategorikansebagaisalahsatubidangAI.

SebagianexpertmenyakinibahwaNNtermasukdalamsalahsatumetodepadabidangAI.SebagianexpertlainnyamengatakanbahwaNNlebihcenderungmasukdalambidangSoftComputationdaripadamasukkebidangAI.AdajugasebagianexpertyangmengawinkankeduakutubperbedaanperdapattersebutdenganmengatakanbahwaNNlebihcocokmasukdalambidangComputationalIntelligent.Namunsayatidakakanmembahasterlalumendalammengenaihalini.

AIDANKONSEPLEARNING

Namunseiringdenganberjalannyawaktu,mulaimasuktahun1990-an,perkembanganAIsudahmulaimenurunpopularitasnyadikalanganscientistdibandingkandenganperkembanganNNsendiri.Mengapabisademikian?.Sayabisamerangkainyademikian.

AIyangpadamulanyadianggapsuatubidangkeilmuanyangmencobamemodelkancaraberpikirmanusia,tidaklainbanyakdidominasiolehteori-teorilogisyangsebenarnyatidakadahubungannyadengancaramanusiaberpikir.Metode-metodeyangberkembangpadabidangAIbukanlahbertumpupadakonseplearningyangmerupakandasarteorimanusiaitubisaberpikir.

Ambilsajasatucontoh,ExpertSystem(ES).ESitusebenarnyabukanmerupakancaramanusiaberpikir,tapilebihmengarahkepadaperkawinanantarateoritreedenganteoriprobabilistikuntukmenyelesaikanpermasalahanpengambilankeputusan.TerlaluberlebihanjikakitaberanggapanbahwaESterilhamiolehcaramanusiaberpikir,apalagicaraexpertberpikir,sebagaimanakataexpertyangdipinjampadateoritersebut.NamuninibukanberartiESitumetodeyangkurangbaik.AkantetapisayahanyamengatakanbahwaESbukanlahteoriyangdibangundaricaramanusiaberpikir.

Lebihmenguatkanhaltersebut,sayasedikitinginbercerita.SepertiyangkitaketahuibahwaESmulaidikembangkanpadatahun1960olehkomunitasAI.Teoriinisangatampuhdalammenyelesaikanpermasalahanpengambilankeputusanmelaluipendekatanrulebasedreasoningdancasebasedreasoning.Padatahun1971,ThomasL.Saaty[2]berhasilmengembangkansuatumetodebarudalammenyelesaikanpermasalahanpengambilankeputusan.MetodetersebutbernamaAnalyticalHierarchyProcess(AHP).Meskipunsama-samametodeyangdipakaiuntukkasuspengambilankeputusan,dibeberapasisiAHPmempunyaikelebihandibandingkanES.DiantarakelebihantersebutadalahAHPbisamelibatkannilaipreferensi,dimanahalitutidakpernahdibayangkanolehES.Disisilain,AHPbisamelakukankoreksikesalahaninputyangmanahalitutidakbisadilakukanolehES.LalukenapaAHPyangsama-samadipakaiuntukpenyelesaiankasuspengambilankeputusansebagaimanaESdandisatusisimempunyaikelebihandibandingkanES,tidakdimasukkankedalamsalahsatubidangdiAI?.Jawabannyasederhana.ItukarenaAHPbukandikembangkanolehseorangpakardarikomunitasAI,sehinggatidakpernahterbayangsamasekaliuntukmengaitkanantaraAHPdenganAI.

Cobalahandalihatmetode-metodelainyangmasukdalambidangAI,makaakanandatemukanbanyakmetodeyangsebenarnyabukanberasaldarimemodelkancaramanusiaberpikir.KalaulahAIdisebutkecerdasanbuatan,makabelumbisadikatakankecerdasan

tersebutadalahberasaldaripemodelancaraberpikirmanusiasebagaimanayangdidefinisikanolehMcCarthypertamakali,ataudengankatalain,bukanhumanartificialintelligence.Namunsekalilagi,inibukanberartimetode-metodediAImerupakanmetode-metodeyangtidakbaik.Selamaini,metode-metodediAIbanyakberhasilmenyelesaikanpermasalah-permasalahanyangkompleksdimanamanusiasendirimerasakesulitanuntukmemecahkannya.AIbanyakmemberikandasar-dasarlogisdalammenyelesaikanberbagaimasalahkomputasi.AIbahkanmerupakanpintugerbangyangharusdimasukiuntukmengenallebihjauhtentangberbagaidisiplinilmupadacomputerscience.

SEPUTARLEARNINGTHEORIES

Itulahsebabnya,parascientistlebihtertarikdanmulaiintensmelakukanrisetdalambidangyangberbasispadalearningtheory.Prof.Sugiyama[3]membagibidanglearningitudalam3bidangriset:

1.Memahamikonsephumanbrains(dikajipadabidangphysiology,psychology,neuroscience)2.Mengembangkanlearningmachines(computerandelectronicengineering)3.Mentranformasiesensilearningsecaramatematik(computerandinformationscience)

KarenaNNberbasispadalearningtheory,sehinggaitulahsebabnyamengapaNNsangatmenarikdanintensdikajiolehparapakarcomputerscience.Padalearningtheoryitupula,parascientistmengelompokkanNNkedalamsalahsatutipelearning,yaitusupervisedlearning,diantaratipeyanglain,unsupervisedlearning.

Supervisedlearningdiibaratkansebagaiprosesbelajardariseorangmuridyangberadadalamsebuahkelas.Simuriddiperbolehkanbertanyakepadaguruyangtelahmengetahuiaturanjawabannya,dankemudiansidosenmenjawabpertanyaantersebut.Darihasiltanya-jawabberkali-kali,simuridakanbisamemahamiruledaripermasalahan,sehinggajikaadapermasalahanlain,simuridakanmembandingkandenganruleyangiasimpulkansebelumnya,sehinggaiabisamemberikanjawaban.Olehkarenaitu,tipesupervisedlearninginimemerlukanapayangdisebuttraining.Semakinlamatraining,semakinpintarpulasimuridmemecahkanmasalah.Itulahbasicconceptdarisupervisedlearning.

Selainsupervisedlearning,adalagitipelearningyanglainyangdinamakandenganunsupervisedlearning.Ilustrasiyangmudahmisalkanhubunganantaramuriddandosenpadacontohyangsebelumnya.Ketikasimuridmenjumpaimasalah,iaharusdapatmenjawabmasalahtersebutdengansendirinya.Semakinbanyakiaberusahamenjawabsendiri,iaakansemakinpandaidalammenemukanruleyangdapatdigunakanuntukmemecahkanpermasalahandikemudianhari.Unsupervisedlearninginiakansangatbermanfaatjikamemangpermasalahanyangdihadapirelatiftidakbisaatausulitsekalidijawabolehsangguru.

Berbedadengansupervisedlearning,unsupervisedlearningtidakmemerlukanprosestraining.Ketikasimuridmenjumpaimasalah,iaharusdapatmenjawabmasalahtersebutdengansendirinya.Semakinbanyakiaberusahamenjawabsendiri,iaakansemakinpandaidalammenemukanruleyangdapatdigunakanuntukmemecahkanpermasalahandikemudianhari.

Tahun-tahunbelakanganini,parailmuwanterusmenggalikonsep-konsepseputarlearningtheory,dansampaiakhirnyamerekamenemukantipelearningyanglainyangdisebutdenganReinforcementLearning.

REINFORCEMENTTHEORY

KonsepdasarRLdiambildarisuatuteoridalamilmupsikologiyangdisebutdenganReinforcementTheory.ReinforcementTheoryinimerupakansuatupendekatanpsikologiyangsangatpentingbagimanusia.Teoriinimenjelaskanbagaimanaseseorangitudapatmenentukan,memilihdanmengambilkeputusandalamdinamikakehidupan.Teoriinibisadigunakanpadaberbagaimacamsituasiyangseringkalidihadapimanusia.

ReinforcementTheoryinimengatakanbahwatingkahlakumanusiaituadalahmerupakanhasilkompilasidaripengalaman-pengalamanyangiatemuisebelumnya,ataudalambahasalainnyadisebutConsequencesinfluencebehavior.

Contohyangpalingmudahyangbisasayagambarkandisiniadalahbagaimanasikapyangdiambilolehseorangsiswadidalamkelas.Asumsikanbahwasanggurusudahmenjelaskanseperangkapaturanyangharusditaatiolehsiswadidalamkelas.Suatuketika,seorangsiswaberteriakdidalamkelas.Makasanggurulangsungmemberikanhukumankepadasiswatersebut.Darihukumanitu,siswatadiakanmerubahsikapnyauntuktidakberteriaklagi.Jugademikian,kepadasiswayangtekunmengikutipelajarandidalamkelas,makasanggurumemberikankepadamerekasemacamhadiahataupenghargaan.Jikasisteminiberjalandalamjangkawaktutertentu,makakeadaansiswatadipastiakankonvergenuntukmengambilsikapyangbaikdidalamkelas.

DalamReinforcementTheory,terdapat3konsekuensiyangberbeda,yaitu:1.Konsekuensiyangmemberikanreward2.Konsekuensiyangmemberikanpunishment3.Konsekuensiyangtidakmemberikanapa-apa

Seorangsiswayangbersikapbaikdidalamkelas,iaakanmendapatkanreward.Denganrewarditu,iaakanbersikaplebihbaiklagi.Jikaiabersikaplebihbaiklagi,iaakanmendapatkanrewardlagi.Demikianseterusnyayangterjadisehinggaiapastiakansemakinkonvergendalambersikapbaikdidalamkelas.Sebaliknya,jikaiabersikapburuk,makaiaakanmenerimapunishment.Denganpunishmentitu,iaakanmerubahsikapnya.Jikapunishmentitutidakcukupuntukmembuatnyaberubah,makaiaakanmendapatkanpunishmentlagi,sehinggadalambatasantertentu,iapastiakanberubahsikapyanghasilnyaadalahiaakanmendapatkanreward.Demikianseterusnya,sehinggapadasuatusaatnanti,iaakankonvergenbersikapbaikdidalamkelas.

Iniadalahteoriyangluarbiasadalammenjelaskandynamicsystempadarealsystem.Akantetapi,sangatsulitsekaliuntukmemodelkandanmentransformasikannyadalambentukcomputationalsystem.

Cobabayangkanpadakasusdiatas.Seandainyasajasiswatersebutberteriakdaniamendapatkanpunishment,makabisajadipunishmentitutidakberpengaruhpadadirinya.Atausebaliknya,punishmentitusangatberpengaruhpadadirinya,sehinggaiamenjadisangatmalu,danakhirnyabunuhdiri!.Jugademikiandenganbagaimanamemodelkanbentukkonsekuensiyangtepat,baikdarisegikategorikonsekuensimaupundarisegiintensitaskonsekuensi.Kesulitanyanglainnyaadalahbagaimanamemodelkansistemyangdinamikdalamaturan-aturanReinforcementTheory.

SehinggabisadiambilkesimpulanbahwaReinforcementTheoryitubukanmerupakanteoriyangsederhana,akantetapimerupakanteoriyangsangatkompleksyangbenar-benardapatmenjelaskankeadaandynamicsystempadarealsystem.Jikasajateoriinidapatdimodelkandanditransformasikandalambentukcomputationalsystem,makaakanterjadiperubahanyangluarbiasapadacomputationallearningtheory.

REINFORCEMENTLEARNINGDALAMLINTASANMASA

BerkembangnyateoriyangberbasispadaReinforcementLearningdiawalidenganmunculnyaprinsippsikologiklasikyangdinyatakanolehThorndikedidalamteorinyayangdikenaldenganLawofEffectpadatahun1911.Dalamteorinyabeliaumenyatakan,

"Ofseveralresponsesmadetothesamesituation,thosewhichareaccompaniedorcloselyfollowedbysaticfactiontotheanimalwill,otherthingsbeingequal,bemorefirmlyconnectedwithsituation,sothat,whenitrecurs,theywillbemorelikelytorecur;thosewhichareaccompaniedorcloselyfollowedbydiscomforttotheanimalwill,otherthingsbeingequal,havetheirconnectionswiththatsituationweakened,sothat,whenitrecurs,theywillbelesslikelytooccur.Thegreaterthesatisfactionordiscomfort,thegreaterthestrengtheningorweakingofthebond."

Meskipunteoriitumenimbulkankontroversidikalanganpsikologi,namunteoritersebutbanyakmempengaruhimunculnyaberbagaiteoriyangmenghubungkanantarabehaviourdanenviroment.

LawofEffectmulaipertamakalinyadiaplikasikandalamcomputationalfieldpadatahun1954olehMinsky.DalamdisertasiPhD-nya,beliaumembuatsuatuanalogmachineyangdisebutSNARC(StochasticNeural-AnalogReinforcementCalculator)yangbekerjadenganprinsiplearningmelaluitrialanderror.Tahun1960-an,DonaldMichiemembuatsuatuprogramyangdisebutMENACE(forMatchboxEducableNoughtsandCrossesEngine)yangdapatbermainTic-Tac-ToedenganmengaplikasikanReinforcementLearningyangsederhana.Tahun1963,AndreamembuatsuatureinforcementlearningmachineyangdisebutSTeLLA.Padatahun1968,MichiedanChambersmenyempurnakanMENACEdenganmengaplikasikanReinforcementLearningyanglebihadvanceddanmenamakanprogramnyadengan

GLEE(GameLearningExpectimaxingEngine).DemikianseterusnyaReinforcementLearningberkembangdaritahunketahun.

Hanyasaja,mungkindibenakkitatimbulpertanyaan,"MengapaReinforcementLearningtidakbegituterkenaldibandingkanteori-teorilearninglainnyaataupunAI?."Sayamenjawab,"Ya,memangbenar."

Sejaktahun1960-an,teoriReinforcementLearningsecaraperlahan-lahantertutupidenganberkembangnyateori-teoriAIdansupervisedlearning,salahsatunyaNeuralNetwork.Saatitumunculnyateori-teoriAIdansupervisedlearningdisambutsebagaiteori-teoriyangsangatmenjanjikandalamhalmentransformasihumanbrain.Takayallagi,parascientistmengalihkanpandangandanmemutarkonsentrasimerekauntukmenekunidanmelakukanrisetpadateori-teoritersebut.Inilahyangmenyebabkansemakinberkembangnyateori-teoriAIdansupervisedlearningpadaperiodemasaitu.Setelahsekianlamabertahun-tahunmelakukanriset,sampailahpadatahun1990-an,parascientistakhirnyadapatmengambilkesimpulanterhadapteori-teoriyangmerekapelajari.Teori-teoriyangpadaawalnyamerekayakinisebagaiteori-teorilearningyangdapatmengarahuntukbisamengembangkansuatulearningmachine(mesin/programyangdapatbelajar),tidaklaincumanberhentipadalearnedmachine(mesin/programyangdiajari),suatumachineyangpintarsetelahdiajari,bukanmachineyangpintarsetelahbelajar.

HalitulahjugayangbisamenjawabmengapaReinforcementLearningjustrumulaimunculkembalipadaawal1990-an.Memangtakaneh,karenaReinforcementLearningmerupakansuatufenomenateoriyangberangkatdari,"Bagaimanamembuatsuatumachineitudapatmenjadipintarsetelahberinteraksidenganenvironment?".Semakinbanyakberinteraksi,makasemakinpintarlahmachinetersebut.Sekarangsaya-lahyangakanbalikbertanyakepadaanda,"Bukankahiniadalahtherealhumanartificialintelligent?"

TEORIDASAR

ReinforcementLearningadalahsalahsatuparadigmabarudidalamlearningtheory.RLdibangundariprosesmapping(pemetaan)darisituasiyangadadienvironment(states)kebentukaksi(behavior)agardapatmemaksimalkanreward.Agentyangbertindaksebagaisanglearnertidakperludiberitahukanbehaviorapakahyangakansepatutnyadilakukan,ataudengankatalain,biarlahsanglearnerbelajarsendiridaripengalamannya.Ketikaiamelakukansesuatuyangbenarberdasarkanruleyangkitatentukan,iaakanmendapatkanreward,danbegitujugasebaliknya.

RLsecaraumumterdiridari4komponendasar,yaitu:1.Policy:kebijaksanaan2.Rewardfunction3.Valuefunction4.Modelofenvironment

Policyadalahfungsiuntukmembuatkeputusandariagentyangmenspesifikasikantindakanapakahyangmungkindilakukandalamberbagaisituasiyangiajumpai.Policyinilahyangbertugasmemetakanperceivedstateskedalambentukaksi.Policybisaberupafungsisederhana,ataulookuptable.PolicyinimerupakanintidariRLyangsangatmenentukanbehaviordarisuatuagent.

Rewardfunctionmendefinisikantujuandarikasusatauproblemyangdihadapi.Iamendefinisikanrewardandpunishmentyangditerimaagentsaatiaberinteraksidenganenvironment.Tujuanutamadarirewardfunctioniniadalahmemaksimalkantotalrewardpadakurunwaktutertentusetelahagentituberinteraksi.

Valuefunctionmenspesifikasikanfungsiakumulasidaritotalrewardyangdidapatkanolehagent.Jikarewardfunctionberbicarapadamasing-masingpartialtimedariprosesinteraksi,valuefunctionberbicarapadalong-termdariprosesinteraksi.

Modelofenvironmentadalahsesuatuyangmenggambarkanbehaviordarienvironment.Modelofenvironmentinisangatbergunauntukmendesaindanmerencanakanbehavioryangtepatpadasituasimendatangyangmemungkinkansebelumagentsendirimempunyaipengalamandengansituasiitu.Saatmasa-masaawalRLdikembangkan,modelofenvironmentyangadaberupatrialanderror.NamunmodernRLsekarangsudahmulaimenjajakispektrumdarilow-level,trialanderrormenujuhigh-level,deliberativeplanning.

EXPLOITATIONANDEXPLORATION

SalahsatukeunggulanReinforcementLearningdibandingkanteori-teorilearningyanglainadalahkemampuannyadalammengadopsiprosesexploitationdanexplorationyangmemangbiasanyadilakukanolehhumanbeing.ExploitationdanexplorationinilahyangmenjadikuncikeberhasilanproseslearningdariRL.

Seringkalimanusiaitumengambilkeputusanuntukmelakukansesuatudenganberdasarkanpadainformasiyangiaterimasebelumnyadaripadaperbuatan-perbuatanyangialakukandimasalalu.Prosesmenggalisebanyakmungkininformasitersebutdinamakandenganexploitation.

Namunseringkalijugamanusiaitumengambilkeputusanuntukmelakukansesuatudengantidakberdasarkanpadainformasiyangiaterimasebelumnyadaripadaperbuatan-perbuatanyangialakukandimasalalu,akantetapilebihcenderungiamencobamelakukansesuatuyangmemangbenar-benarbarubagidirinyauntukmelihatbagaimanahasildaripadaperbuatantersebut.Prosesinilahyangdisebutdenganexploration.

Seseorangyangexploitation-nyarelatifbesarakancenderungbertindakover-pasivedanekstrahati-hati,bahkanmungkindiatidakakanberanimelakukansesuatuapapun.Inidisebabkaniahanyamenggaliinformasiyangiaterimasebelumnyadaripadaperbuatan-perbuatanyangialakukandimasalalu.Jikaiaberhadapandengansuatukeadaan

dimanahalitubelumpernahiaalamisebelumnya,makaiaakancenderungtidakberbuatapa-apa.

Namunsebaliknya,jikaseseorangyangexploration-nyarelatifbesar,makaiaakancenderungbertindakover-activedannekad.Orangyangsepertiinitermasuktipeorangyangtidakbelajardaripengalaman-pengalamanyangiadapatkansebelumnya.Akibatnya,tindakanapapunyangialakukanmerupakantindakanyangmengandungtingkatprobabilistikyangsangatbesar,ataudengankatalaingambling.

Keseimbanganantaraexploitationdanexplorationinilahyangmenjadikuncikeberhasilanproseslearningdalamkehidupanmanusia.Yangperlukitagarisbawahi,seimbangbukanberartisama,ataudengankatalainfifty-fifty,akantetapiprosentasekeduanyaakanberfluktuasisesuaidenganberbagaimacamkeadaanyangjelassangatberagam.

Nah,ReinforcementLearningmengadopsikonsepexploitationdanexplorationyangadapadahumanbeing.Yup!,satunilaitambahlagibuatRLsebagaihumanartificialintelligence.LalusepertiapakahbentukexploitationdanexplorationyangadapadaRL,ikutilahseri-seritulisaniniberikutnya.

EVALUATIVEFEEDBACK

SesuatuyangpalingpentingyangmembedakanantaraReinforcementLearningdengantipe-tipelearninglainnyaadalahpenggunaanevaluasiaksiyangtelahdiambillebihdaripadamemberikaninstruksiaksimanakahyangseharusnyadilakukan.Prosesevaluasiinimembukaperluadanyaexplorationsecaraaktif,denganmencobatrialanderroruntukmenemukanbehavioryangbaik.Evaluativefeedbackmengindikasikanbagaimanasebaiknyaaksiitudiambil,tetapibukanmenentukankemungkinanapakahituaksiyangterbaikatauterburuk.

Evaluativefeedbackmerupakanbasisberbagaimetodepadapermasalahanoptimasi,termasukjugametode-metodeevolutionary.Evaluativefeedbackjugamerupakanbasisdarisupervisedlearningyangseringkaliberbicaratentangpatternrecognition,artificialneuralnetworkdansystemidentification.BegitulahyangdipaparkanolehSuttondanBartodalambukunyayangterkenalReinforcementlearning:anintroductionmengawalipembahasantentangevaluativefeedback.

EvaluativefeedbackdalamRLmemuatpembahasanyangsangatluas,namunkaliinisayahanyamengenalkanyangsederhanaagarbisamemberikangambaranyangmudahandapahami.Jikaseseorangmelakukansesuatuuntukmencapaigoaltertentu(katakanlaha),dansetiapkaliiamelakukanhaltersebut,makaiaakanmendapatkanrewardRidimanaiadalahwaktudimanaseseorangitumelakukansesuatu.Jikaaksiyangialakukanrelatifmendekatia,makaiaakanmendapatkanrewardyangbesar,dandemikianpulasebaliknya.Yangjelas,ketikaiasudahmelakukanbeberapaaksi,makaiaakanmendapatkanrata-ratadarireward-rewardyangiaterima,sehinggaactionvalueQt(a)yangiadapatkanadalah:

Qt(a)=(R1+R2++Rn)/n

dimanatadalahfungsiwaktuyangiaperlukanuntukmelakukannaksi.IniberartibahwaQo(a)=0,sebabiabelummelakukansesuatuapapunpadafungsiwaktut=0.JikaQ*(a)adalahactionvalueyangidealuntukmencapaigoala,yangberartibahwajikaiaberusahamelakukansebaik-baiknyaaksi,makaQt(a)akanmendekatiQ*(a).Inilahyangdinamakandenganmetodesample-averageuntukmengestimasiactionvalue.Namuninihanyalahmetodeyangpalingsederhanadanbukanyangterbaikuntukmengestimasiactionvalue.

Laluapakahituberartikitaharusmenyimpansemuadata-dataRiuntukmendapatkanQt(a)?.Kalausajahalinidilakukan,pastiiniakanmembutuhkankomputasiyangbesar.HalinidisebabkankarenaRLbiasanyadipakaiuntukdynamicsystemsehinggatbiasanyabernilaibesar.Lalubagaimanamenghindarihaltersebut,RLmenyelesaikannyadenganincrementalimplementation.Mautahu,ikutilahdalamtulisanberikut

INCREMENTALIMPLEMENTATION

Incrementalimplementationyangakanbisamenjawabpertanyaanyanglalutentangapakahituberartikitaharusmenyimpansemuadata-dataRiuntukmendapatkanQt(a)?.Halitubisadihindaridengancaramenyederhanakanpersamaansebelumnyasebagaiberikut.

Q(k+1)=(R(i))/(k+1)dimanai=1..k+1

=[R(k+1)+R(i)]/(k+1)dimanai=1..k=[R(k+1)+k.Q(k)+Q(k)-Q(k)]/(k+1)=[R(k+1)+(k+1).Q(k)Q(k)]/(k+1)=Q(k)+{[R(k+1)Q(k)]/(k+1)}

Dengandemikian,implementasiactionvaluetersebuttidakmembutuhkanbanyakmemori.Dalambahasamanusia,persamaandiatasdapatdisederhanakansebagaiberikut:

NewEstimateOldEstimate+StepSize[TargetOldEstimate]

Ekspresi[TargetOldEstimate]padapersamaandiatasmerupakanbesaranselisihrewarduntukprosesestimasiterhadapaksiyangdilakukan.KetikaTargetternyatamemberikanreward,maka[TargetOldEstimate]akanmenjadipositif,yangkemudianmengakibatkannilaiNewEstimateakanmenjadilebihbesardaripadaOldEstimate.Tapisebaliknya,ketikaTargetternyatamemberikanpunishment,maka[TargetOldEstimate]akanmenjadinegatif,yangkemudianmengakibatkannilaiNewEstimateakanmenjadilebihkecildaripadaOldEstimate.

SedangkanStepSizemerupakanbesaranuntukmengaturseberapabesaragentmelakukanexploitationatauexploration.SemakinbesarnilaiStepSize,denganbatasan

maksimum1,makasemakinbesarkemungkinanagentuntukmelakukanexploitation.Begitujugasebaliknya,semakinkecilnilaiStepSize,denganbatasanminimum0,makasemakinbesarpulakemungkinagentuntukmelakukanexploration.

PadasaatnilaiStepSizedisetbesar,makainiakanmenyebabkanbesaranreward(baikrewardataupunpunishment)menjadisangatbesar,sehinggadampaknyaakanberpengaruhpadanilaiNewEstimateyangdidapatkanmempunyaiselisihyangsangatbesardenganOldEstimate.Karenaselisihyangsangatbesartersebut,sehinggadalamprosesaksiselanjutnya,agentakanlebihbesarkemungkinannyamelakukanprosesexploitation.

Tapisebaliknya,padasaatnilaiStepSizedisetkecil,makainiakanmenyebabkanbesaranreward(baikrewardataupunpunishment)menjadisangatkecil,sehinggadampaknyaakanberpengaruhpadanilaiNewEstimateyangdidapatkanmempunyaiselisihyangsangatkecildenganOldEstimate.Karenaselisihyangsangatkeciltersebut,sehinggadalamprosesaksiselanjutnya,agentakanlebihbesarkemungkinannyamelakukanprosesexploration.

REFERENSI:

SriKusumadewi,ArtificialIntelligence(TeknikdanAplikasinya),edisiI,penerbitGrahaIlmu,Yogya,2003.

SriMulyani,RisetOperasi,LembagaPenerbitFakultasEkonomiUI,Jakarta,2002.

MasashiSugiyama,PatternInformationProcessing,DepartmentofComputerScience,TokyoInstituteofTechnology,Japan.

R.S.Sutton,A.Barto,ReinforcementLearning:anIntroduction,secondprinting,1999,TheMITPress.

S.Booth,ReinforcementTheory,http://www.as.wvu.edu/~sbb/comm221/chapters/rf.htm,1999.

,M.E.Harmon,S.S.Harmon,ReinforcementLearning:aTutorial,http://citeseer.nj.nec.com/harmon96reinforcement.html1996.

D.Finton,WhatisReinforcementLearning,http://www.cs.wisc.edu/~finton/what-rl.html.S.Mahadevan,GlosarryofTerminologyinReinforcementLearning,http://www-anw.cs.umass.edu/rlr/terms.html

Y.Mansour,LectureNotesonReinforcementLearning,http://www.math.tau.ac.il/~mansour/rl.html

S.T.Hagen,B.Krse,AShortIntroductiontoReinforcementLearning,http://citeseer.ist.psu.edu/tenhagen97short.html,1997.

,S.Keerthi,B.Ravindran,ATutorialSurveyofReinforcementLearning,http://citeseer.ist.psu.edu/keerthi95tutorial.html1995.