Reinforcement Learning

ReinforcementLearningParadigmabarudalamMachineLearning

AliRidhoBarakbah,S.Kom.SoftComputationResearchGroup,EEPIS-ITS

ReinforcementLearning.Itulahtopikyangakansayaperbincangkandisini.Walaupuninisekedartulisanbiasa,bukantulisanilmiah,namunsetidaknyainimungkinbisadianggapsebagaisharingknowledgeyangmungkinbisabermanfaatbagirekan-rekandisini.

KILASBALIK

BerbicaratentangReinforcementLearning(RL),tidakterlepasdarisejarahberkembangnyabidangArtificialIntelligence(AI).Kalauandatidakberkeberatan,sayaakanmengajakandamemutarjamdindinganda,lalumenerobosdimensiwaktu,danpergikeawaltahun1950-an.

AdalahseorangyangbernamaAlanTuring,seorangmatematikawanInggris,ditahun1950-an,mencobamembuatsuatumesinyangdinamakanTuringMachinedimanadidalamnyaberisigameyangdibangundariserangkaianalgoritmasehinggamesintersebutmampubermaindenganmanusia.Padatahun1956,JohnMcCarthy,seorangprofessordariMIT,mulaimemperkenalkanbidangbarusecaraspesifikyangbernamaArtificialIntelligence.BeliaumendefinisikanbidangitusebagaiBidangyangmemodelkanproses-prosesberpikirmanusiadanmendesainmesinagardapatmenirukankelakuanmanusia[1].

MulailahduniaAIberkembangpesat,menjadidayatariktersendiribagiparapenelitidanpakarcomputerscience.Halinibisakitalihatdenganbermunculnyaberbagaimacammetode-metodeyangdikembangkanpadabidangAI,mulaidariteorigraph,teoritree,teoristate,knowledgebasedsystem,sampaiexpertsystemyangberbasisprobabilisticmodel.

Menariknya,sebelummasaberkembangnyaAIyangberorientasipadapemodelancaraberpikirmanusia,parascientistsebenarnyajugaberusahamengembangkanpemodelancaraberpikirmanusia.Padaawaltahun1940-an,merekamelakukanrisetterhadapmekanismeberpikirpadastrukturotakmanusia.ItulahawalberkembangnyaapayangdinamakandenganNeuralNetwork(NN).

Yanglebihmenariklagiadalah,meskipunberorientasipadapemodelancaraberpikirmanusia,berkembangNNdanAIseakan-akandalamduaduniayangberbeda.Olehkarenaitu,bisakitamaklumiadaperbedaanpendapatdikalanganpakarcomputerscienceapakahNNbisadikategorikansebagaisalahsatubidangAI.

SebagianexpertmenyakinibahwaNNtermasukdalamsalahsatumetodepadabidangAI.SebagianexpertlainnyamengatakanbahwaNNlebihcenderungmasukdalambidangSoftComputationdaripadamasukkebidangAI.AdajugasebagianexpertyangmengawinkankeduakutubperbedaanperdapattersebutdenganmengatakanbahwaNNlebihcocokmasukdalambidangComputationalIntelligent.Namunsayatidakakanmembahasterlalumendalammengenaihalini.

AIDANKONSEPLEARNING

Namunseiringdenganberjalannyawaktu,mulaimasuktahun1990-an,perkembanganAIsudahmulaimenurunpopularitasnyadikalanganscientistdibandingkandenganperkembanganNNsendiri.Mengapabisademikian?.Sayabisamerangkainyademikian.

AIyangpadamulanyadianggapsuatubidangkeilmuanyangmencobamemodelkancaraberpikirmanusia,tidaklainbanyakdidominasiolehteori-teorilogisyangsebenarnyatidakadahubungannyadengancaramanusiaberpikir.Metode-metodeyangberkembangpadabidangAIbukanlahbertumpupadakonseplearningyangmerupakandasarteorimanusiaitubisaberpikir.

Ambilsajasatucontoh,ExpertSystem(ES).ESitusebenarnyabukanmerupakancaramanusiaberpikir,tapilebihmengarahkepadaperkawinanantarateoritreedenganteoriprobabilistikuntukmenyelesaikanpermasalahanpengambilankeputusan.TerlaluberlebihanjikakitaberanggapanbahwaESterilhamiolehcaramanusiaberpikir,apalagicaraexpertberpikir,sebagaimanakataexpertyangdipinjampadateoritersebut.NamuninibukanberartiESitumetodeyangkurangbaik.AkantetapisayahanyamengatakanbahwaESbukanlahteoriyangdibangundaricaramanusiaberpikir.

Lebihmenguatkanhaltersebut,sayasedikitinginbercerita.SepertiyangkitaketahuibahwaESmulaidikembangkanpadatahun1960olehkomunitasAI.Teoriinisangatampuhdalammenyelesaikanpermasalahanpengambilankeputusanmelaluipendekatanrulebasedreasoningdancasebasedreasoning.Padatahun1971,ThomasL.Saaty[2]berhasilmengembangkansuatumetodebarudalammenyelesaikanpermasalahanpengambilankeputusan.MetodetersebutbernamaAnalyticalHierarchyProcess(AHP).Meskipunsama-samametodeyangdipakaiuntukkasuspengambilankeputusan,dibeberapasisiAHPmempunyaikelebihandibandingkanES.DiantarakelebihantersebutadalahAHPbisamelibatkannilaipreferensi,dimanahalitutidakpernahdibayangkanolehES.Disisilain,AHPbisamelakukankoreksikesalahaninputyangmanahalitutidakbisadilakukanolehES.LalukenapaAHPyangsama-samadipakaiuntukpenyelesaiankasuspengambilankeputusansebagaimanaESdandisatusisimempunyaikelebihandibandingkanES,tidakdimasukkankedalamsalahsatubidangdiAI?.Jawabannyasederhana.ItukarenaAHPbukandikembangkanolehseorangpakardarikomunitasAI,sehinggatidakpernahterbayangsamasekaliuntukmengaitkanantaraAHPdenganAI.

Cobalahandalihatmetode-metodelainyangmasukdalambidangAI,makaakanandatemukanbanyakmetodeyangsebenarnyabukanberasaldarimemodelkancaramanusiaberpikir.KalaulahAIdisebutkecerdasanbuatan,makabelumbisadikatakankecerdasan

tersebutadalahberasaldaripemodelancaraberpikirmanusiasebagaimanayangdidefinisikanolehMcCarthypertamakali,ataudengankatalain,bukanhumanartificialintelligence.Namunsekalilagi,inibukanberartimetode-metodediAImerupakanmetode-metodeyangtidakbaik.Selamaini,metode-metodediAIbanyakberhasilmenyelesaikanpermasalah-permasalahanyangkompleksdimanamanusiasendirimerasakesulitanuntukmemecahkannya.AIbanyakmemberikandasar-dasarlogisdalammenyelesaikanberbagaimasalahkomputasi.AIbahkanmerupakanpintugerbangyangharusdimasukiuntukmengenallebihjauhtentangberbagaidisiplinilmupadacomputerscience.

SEPUTARLEARNINGTHEORIES

Itulahsebabnya,parascientistlebihtertarikdanmulaiintensmelakukanrisetdalambidangyangberbasispadalearningtheory.Prof.Sugiyama[3]membagibidanglearningitudalam3bidangriset:

1.Memahamikonsephumanbrains(dikajipadabidangphysiology,psychology,neuroscience)2.Mengembangkanlearningmachines(computerandelectronicengineering)3.Mentranformasiesensilearningsecaramatematik(computerandinformationscience)

KarenaNNberbasispadalearningtheory,sehinggaitulahsebabnyamengapaNNsangatmenarikdanintensdikajiolehparapakarcomputerscience.Padalearningtheoryitupula,parascientistmengelompokkanNNkedalamsalahsatutipelearning,yaitusupervisedlearning,diantaratipeyanglain,unsupervisedlearning.

Supervisedlearningdiibaratkansebagaiprosesbelajardariseorangmuridyangberadadalamsebuahkelas.Simuriddiperbolehkanbertanyakepadaguruyangtelahmengetahuiaturanjawabannya,dankemudiansidosenmenjawabpertanyaantersebut.Darihasiltanya-jawabberkali-kali,simuridakanbisamemahamiruledaripermasalahan,sehinggajikaadapermasalahanlain,simuridakanmembandingkandenganruleyangiasimpulkansebelumnya,sehinggaiabisamemberikanjawaban.Olehkarenaitu,tipesupervisedlearninginimemerlukanapayangdisebuttraining.Semakinlamatraining,semakinpintarpulasimuridmemecahkanmasalah.Itulahbasicconceptdarisupervisedlearning.

Selainsupervisedlearning,adalagitipelearningyanglainyangdinamakandenganunsupervisedlearning.Ilustrasiyangmudahmisalkanhubunganantaramuriddandosenpadacontohyangsebelumnya.Ketikasimuridmenjumpaimasalah,iaharusdapatmenjawabmasalahtersebutdengansendirinya.Semakinbanyakiaberusahamenjawabsendiri,iaakansemakinpandaidalammenemukanruleyangdapatdigunakanuntukmemecahkanpermasalahandikemudianhari.Unsupervisedlearninginiakansangatbermanfaatjikamemangpermasalahanyangdihadapirelatiftidakbisaatausulitsekalidijawabolehsangguru.

Berbedadengansupervisedlearning,unsupervisedlearningtidakmemerlukanprosestraining.Ketikasimuridmenjumpaimasalah,iaharusdapatmenjawabmasalahtersebutdengansendirinya.Semakinbanyakiaberusahamenjawabsendiri,iaakansemakinpandaidalammenemukanruleyangdapatdigunakanuntukmemecahkanpermasalahandikemudianhari.

Tahun-tahunbelakanganini,parailmuwanterusmenggalikonsep-konsepseputarlearningtheory,dansampaiakhirnyamerekamenemukantipelearningyanglainyangdisebutdenganReinforcementLearning.

REINFORCEMENTTHEORY

KonsepdasarRLdiambildarisuatuteoridalamilmupsikologiyangdisebutdenganReinforcementTheory.ReinforcementTheoryinimerupakansuatupendekatanpsikologiyangsangatpentingbagimanusia.Teoriinimenjelaskanbagaimanaseseorangitudapatmenentukan,memilihdanmengambilkeputusandalamdinamikakehidupan.Teoriinibisadigunakanpadaberbagaimacamsituasiyangseringkalidihadapimanusia.

ReinforcementTheoryinimengatakanbahwatingkahlakumanusiaituadalahmerupakanhasilkompilasidaripengalaman-pengalamanyangiatemuisebelumnya,ataudalambahasalainnyadisebutConsequencesinfluencebehavior.

Contohyangpalingmudahyangbisasayagambarkandisiniadalahbagaimanasikapyangdiambilolehseorangsiswadidalamkelas.Asumsikanbahwasanggurusudahmenjelaskanseperangkapaturanyangharusditaatiolehsiswadidalamkelas.Suatuketika,seorangsiswaberteriakdidalamkelas.Makasanggurulangsungmemberikanhukumankepadasiswatersebut.Darihukumanitu,siswatadiakanmerubahsikapnyauntuktidakberteriaklagi.Jugademikian,kepadasiswayangtekunmengikutipelajarandidalamkelas,makasanggurumemberikankepadamerekasemacamhadiahataupenghargaan.Jikasisteminiberjalandalamjangkawaktutertentu,makakeadaansiswatadipastiakankonvergenuntukmengambilsikapyangbaikdidalamkelas.

DalamReinforcementTheory,terdapat3konsekuensiyangberbeda,yaitu:1.Konsekuensiyangmemberikanreward2.Konsekuensiyangmemberikanpunishment3.Konsekuensiyangtidakmemberikanapa-apa

Seorangsiswayangbersikapbaikdidalamkelas,iaakanmendapatkanreward.Denganrewarditu,iaakanbersikaplebihbaiklagi.Jikaiabersikaplebihbaiklagi,iaakanmendapatkanrewardlagi.Demikianseterusnyayangterjadisehinggaiapastiakansemakinkonvergendalambersikapbaikdidalamkelas.Sebaliknya,jikaiabersikapburuk,makaiaakanmenerimapunishment.Denganpunishmentitu,iaakanmerubahsikapnya.Jikapunishmentitutidakcukupuntukmembuatnyaberubah,makaiaakanmendapatkanpunishmentlagi,sehinggadalambatasantertentu,iapastiakanberubahsikapyanghasilnyaadalahiaakanmendapatkanreward.Demikianseterusnya,sehinggapadasuatusaatnanti,iaakankonvergenbersikapbaikdidalamkelas.

Iniadalahteoriyangluarbiasadalammenjelaskandynamicsystempadarealsystem.Akantetapi,sangatsulitsekaliuntukmemodelkandanmentransformasikannyadalambentukcomputationalsystem.

Cobabayangkanpadakasusdiatas.Seandainyasajasiswatersebutberteriakdaniamendapatkanpunishment,makabisajadipunishmentitutidakberpengaruhpadadirinya.Atausebaliknya,punishmentitusangatberpengaruhpadadirinya,sehinggaiamenjadisangatmalu,danakhirnyabunuhdiri!.Jugademikiandenganbagaimanamemodelkanbentukkonsekuensiyangtepat,baikdarisegikategorikonsekuensimaupundarisegiintensitaskonsekuensi.Kesulitanyanglainnyaadalahbagaimanamemodelkansistemyangdinamikdalamaturan-aturanReinforcementTheory.

SehinggabisadiambilkesimpulanbahwaReinforcementTheoryitubukanmerupakanteoriyangsederhana,akantetapimerupakanteoriyangsangatkompleksyangbenar-benardapatmenjelaskankeadaandynamicsystempadarealsystem.Jikasajateoriinidapatdimodelkandanditransformasikandalambentukcomputationalsystem,makaakanterjadiperubahanyangluarbiasapadacomputationallearningtheory.

REINFORCEMENTLEARNINGDALAMLINTASANMASA

BerkembangnyateoriyangberbasispadaReinforcementLearningdiawalidenganmunculnyaprinsippsikologiklasikyangdinyatakanolehThorndikedidalamteorinyayangdikenaldenganLawofEffectpadatahun1911.Dalamteorinyabeliaumenyatakan,

"Ofseveralresponsesmadetothesamesituation,thosewhichareaccompaniedorcloselyfollowedbysaticfactiontotheanimalwill,otherthingsbeingequal,bemorefirmlyconnectedwithsituation,sothat,whenitrecurs,theywillbemorelikelytorecur;thosewhichareaccompaniedorcloselyfollowedbydiscomforttotheanimalwill,otherthingsbeingequal,havetheirconnectionswiththatsituationweakened,sothat,whenitrecurs,theywillbelesslikelytooccur.Thegreaterthesatisfactionordiscomfort,thegreaterthestrengtheningorweakingofthebond."

Meskipunteoriitumenimbulkankontroversidikalanganpsikologi,namunteoritersebutbanyakmempengaruhimunculnyaberbagaiteoriyangmenghubungkanantarabehaviourdanenviroment.

LawofEffectmulaipertamakalinyadiaplikasikandalamcomputationalfieldpadatahun1954olehMinsky.DalamdisertasiPhD-nya,beliaumembuatsuatuanalogmachineyangdisebutSNARC(StochasticNeural-AnalogReinforcementCalculator)yangbekerjadenganprinsiplearningmelaluitrialanderror.Tahun1960-an,DonaldMichiemembuatsuatuprogramyangdisebutMENACE(forMatchboxEducableNoughtsandCrossesEngine)yangdapatbermainTic-Tac-ToedenganmengaplikasikanReinforcementLearningyangsederhana.Tahun1963,AndreamembuatsuatureinforcementlearningmachineyangdisebutSTeLLA.Padatahun1968,MichiedanChambersmenyempurnakanMENACEdenganmengaplikasikanReinforcementLearningyanglebihadvanceddanmenamakanprogramnyadengan

GLEE(GameLearningExpectimaxingEngine).DemikianseterusnyaReinforcementLearningberkembangdaritahunketahun.

Hanyasaja,mungkindibenakkitatimbulpertanyaan,"MengapaReinforcementLearningtidakbegituterkenaldibandingkanteori-teorilearninglainnyaataupunAI?."Sayamenjawab,"Ya,memangbenar."

Sejaktahun1960-an,teoriReinforcementLearningsecaraperlahan-lahantertutupidenganberkembangnyateori-teoriAIdansupervisedlearning,salahsatunyaNeuralNetwork.Saatitumunculnyateori-teoriAIdansupervisedlearningdisambutsebagaiteori-teoriyangsangatmenjanjikandalamhalmentransformasihumanbrain.Takayallagi,parascientistmengalihkanpandangandanmemutarkonsentrasimerekauntukmenekunidanmelakukanrisetpadateori-teoritersebut.Inilahyangmenyebabkansemakinberkembangnyateori-teoriAIdansupervisedlearningpadaperiodemasaitu.Setelahsekianlamabertahun-tahunmelakukanriset,sampailahpadatahun1990-an,parascientistakhirnyadapatmengambilkesimpulanterhadapteori-teoriyangmerekapelajari.Teori-teoriyangpadaawalnyamerekayakinisebagaiteori-teorilearningyangdapatmengarahuntukbisamengembangkansuatulearningmachine(mesin/programyangdapatbelajar),tidaklaincumanberhentipadalearnedmachine(mesin/programyangdiajari),suatumachineyangpintarsetelahdiajari,bukanmachineyangpintarsetelahbelajar.

HalitulahjugayangbisamenjawabmengapaReinforcementLearningjustrumulaimunculkembalipadaawal1990-an.Memangtakaneh,karenaReinforcementLearningmerupakansuatufenomenateoriyangberangkatdari,"Bagaimanamembuatsuatumachineitudapatmenjadipintarsetelahberinteraksidenganenvironment?".Semakinbanyakberinteraksi,makasemakinpintarlahmachinetersebut.Sekarangsaya-lahyangakanbalikbertanyakepadaanda,"Bukankahiniadalahtherealhumanartificialintelligent?"

TEORIDASAR

ReinforcementLearningadalahsalahsatuparadigmabarudidalamlearningtheory.RLdibangundariprosesmapping(pemetaan)darisituasiyangadadienvironment(states)kebentukaksi(behavior)agardapatmemaksimalkanreward.Agentyangbertindaksebagaisanglearnertidakperludiberitahukanbehaviorapakahyangakansepatutnyadilakukan,ataudengankatalain,biarlahsanglearnerbelajarsendiridaripengalamannya.Ketikaiamelakukansesuatuyangbenarberdasarkanruleyangkitatentukan,iaakanmendapatkanreward,danbegitujugasebaliknya.

RLsecaraumumterdiridari4komponendasar,yaitu:1.Policy:kebijaksanaan2.Rewardfunction3.Valuefunction4.Modelofenvironment

Policyadalahfungsiuntukmembuatkeputusandariagentyangmenspesifikasikantindakanapakahyangmungkindilakukandalamberbagaisituasiyangiajumpai.Policyinilahyangbertugasmemetakanperceivedstateskedalambentukaksi.Policybisaberupafungsisederhana,ataulookuptable.PolicyinimerupakanintidariRLyangsangatmenentukanbehaviordarisuatuagent.

Rewardfunctionmendefinisikantujuandarikasusatauproblemyangdihadapi.Iamendefinisikanrewardandpunishmentyangditerimaagentsaatiaberinteraksidenganenvironment.Tujuanutamadarirewardfunctioniniadalahmemaksimalkantotalrewardpadakurunwaktutertentusetelahagentituberinteraksi.

Valuefunctionmenspesifikasikanfungsiakumulasidaritotalrewardyangdidapatkanolehagent.Jikarewardfunctionberbicarapadamasing-masingpartialtimedariprosesinteraksi,valuefunctionberbicarapadalong-termdariprosesinteraksi.

Modelofenvironmentadalahsesuatuyangmenggambarkanbehaviordarienvironment.Modelofenvironmentinisangatbergunauntukmendesaindanmerencanakanbehavioryangtepatpadasituasimendatangyangmemungkinkansebelumagentsendirimempunyaipengalamandengansituasiitu.Saatmasa-masaawalRLdikembangkan,modelofenvironmentyangadaberupatrialanderror.NamunmodernRLsekarangsudahmulaimenjajakispektrumdarilow-level,trialanderrormenujuhigh-level,deliberativeplanning.

EXPLOITATIONANDEXPLORATION

SalahsatukeunggulanReinforcementLearningdibandingkanteori-teorilearningyanglainadalahkemampuannyadalammengadopsiprosesexploitationdanexplorationyangmemangbiasanyadilakukanolehhumanbeing.ExploitationdanexplorationinilahyangmenjadikuncikeberhasilanproseslearningdariRL.

Seringkalimanusiaitumengambilkeputusanuntukmelakukansesuatudenganberdasarkanpadainformasiyangiaterimasebelumnyadaripadaperbuatan-perbuatanyangialakukandimasalalu.Prosesmenggalisebanyakmungkininformasitersebutdinamakandenganexploitation.

Namunseringkalijugamanusiaitumengambilkeputusanuntukmelakukansesuatudengantidakberdasarkanpadainformasiyangiaterimasebelumnyadaripadaperbuatan-perbuatanyangialakukandimasalalu,akantetapilebihcenderungiamencobamelakukansesuatuyangmemangbenar-benarbarubagidirinyauntukmelihatbagaimanahasildaripadaperbuatantersebut.Prosesinilahyangdisebutdenganexploration.

Seseorangyangexploitation-nyarelatifbesarakancenderungbertindakover-pasivedanekstrahati-hati,bahkanmungkindiatidakakanberanimelakukansesuatuapapun.Inidisebabkaniahanyamenggaliinformasiyangiaterimasebelumnyadaripadaperbuatan-perbuatanyangialakukandimasalalu.Jikaiaberhadapandengansuatukeadaan

dimanahalitubelumpernahiaalamisebelumnya,makaiaakancenderungtidakberbuatapa-apa.

Namunsebaliknya,jikaseseorangyangexploration-nyarelatifbesar,makaiaakancenderungbertindakover-activedannekad.Orangyangsepertiinitermasuktipeorangyangtidakbelajardaripengalaman-pengalamanyangiadapatkansebelumnya.Akibatnya,tindakanapapunyangialakukanmerupakantindakanyangmengandungtingkatprobabilistikyangsangatbesar,ataudengankatalaingambling.

Keseimbanganantaraexploitationdanexplorationinilahyangmenjadikuncikeberhasilanproseslearningdalamkehidupanmanusia.Yangperlukitagarisbawahi,seimbangbukanberartisama,ataudengankatalainfifty-fifty,akantetapiprosentasekeduanyaakanberfluktuasisesuaidenganberbagaimacamkeadaanyangjelassangatberagam.

Nah,ReinforcementLearningmengadopsikonsepexploitationdanexplorationyangadapadahumanbeing.Yup!,satunilaitambahlagibuatRLsebagaihumanartificialintelligence.LalusepertiapakahbentukexploitationdanexplorationyangadapadaRL,ikutilahseri-seritulisaniniberikutnya.

EVALUATIVEFEEDBACK

SesuatuyangpalingpentingyangmembedakanantaraReinforcementLearningdengantipe-tipelearninglainnyaadalahpenggunaanevaluasiaksiyangtelahdiambillebihdaripadamemberikaninstruksiaksimanakahyangseharusnyadilakukan.Prosesevaluasiinimembukaperluadanyaexplorationsecaraaktif,denganmencobatrialanderroruntukmenemukanbehavioryangbaik.Evaluativefeedbackmengindikasikanbagaimanasebaiknyaaksiitudiambil,tetapibukanmenentukankemungkinanapakahituaksiyangterbaikatauterburuk.

Evaluativefeedbackmerupakanbasisberbagaimetodepadapermasalahanoptimasi,termasukjugametode-metodeevolutionary.Evaluativefeedbackjugamerupakanbasisdarisupervisedlearningyangseringkaliberbicaratentangpatternrecognition,artificialneuralnetworkdansystemidentification.BegitulahyangdipaparkanolehSuttondanBartodalambukunyayangterkenalReinforcementlearning:anintroductionmengawalipembahasantentangevaluativefeedback.

EvaluativefeedbackdalamRLmemuatpembahasanyangsangatluas,namunkaliinisayahanyamengenalkanyangsederhanaagarbisamemberikangambaranyangmudahandapahami.Jikaseseorangmelakukansesuatuuntukmencapaigoaltertentu(katakanlaha),dansetiapkaliiamelakukanhaltersebut,makaiaakanmendapatkanrewardRidimanaiadalahwaktudimanaseseorangitumelakukansesuatu.Jikaaksiyangialakukanrelatifmendekatia,makaiaakanmendapatkanrewardyangbesar,dandemikianpulasebaliknya.Yangjelas,ketikaiasudahmelakukanbeberapaaksi,makaiaakanmendapatkanrata-ratadarireward-rewardyangiaterima,sehinggaactionvalueQt(a)yangiadapatkanadalah:

Qt(a)=(R1+R2++Rn)/n

dimanatadalahfungsiwaktuyangiaperlukanuntukmelakukannaksi.IniberartibahwaQo(a)=0,sebabiabelummelakukansesuatuapapunpadafungsiwaktut=0.JikaQ*(a)adalahactionvalueyangidealuntukmencapaigoala,yangberartibahwajikaiaberusahamelakukansebaik-baiknyaaksi,makaQt(a)akanmendekatiQ*(a).Inilahyangdinamakandenganmetodesample-averageuntukmengestimasiactionvalue.Namuninihanyalahmetodeyangpalingsederhanadanbukanyangterbaikuntukmengestimasiactionvalue.

Laluapakahituberartikitaharusmenyimpansemuadata-dataRiuntukmendapatkanQt(a)?.Kalausajahalinidilakukan,pastiiniakanmembutuhkankomputasiyangbesar.HalinidisebabkankarenaRLbiasanyadipakaiuntukdynamicsystemsehinggatbiasanyabernilaibesar.Lalubagaimanamenghindarihaltersebut,RLmenyelesaikannyadenganincrementalimplementation.Mautahu,ikutilahdalamtulisanberikut

INCREMENTALIMPLEMENTATION

Incrementalimplementationyangakanbisamenjawabpertanyaanyanglalutentangapakahituberartikitaharusmenyimpansemuadata-dataRiuntukmendapatkanQt(a)?.Halitubisadihindaridengancaramenyederhanakanpersamaansebelumnyasebagaiberikut.

Q(k+1)=(R(i))/(k+1)dimanai=1..k+1

=[R(k+1)+R(i)]/(k+1)dimanai=1..k=[R(k+1)+k.Q(k)+Q(k)-Q(k)]/(k+1)=[R(k+1)+(k+1).Q(k)Q(k)]/(k+1)=Q(k)+{[R(k+1)Q(k)]/(k+1)}

Dengandemikian,implementasiactionvaluetersebuttidakmembutuhkanbanyakmemori.Dalambahasamanusia,persamaandiatasdapatdisederhanakansebagaiberikut:

NewEstimateOldEstimate+StepSize[TargetOldEstimate]

Ekspresi[TargetOldEstimate]padapersamaandiatasmerupakanbesaranselisihrewarduntukprosesestimasiterhadapaksiyangdilakukan.KetikaTargetternyatamemberikanreward,maka[TargetOldEstimate]akanmenjadipositif,yangkemudianmengakibatkannilaiNewEstimateakanmenjadilebihbesardaripadaOldEstimate.Tapisebaliknya,ketikaTargetternyatamemberikanpunishment,maka[TargetOldEstimate]akanmenjadinegatif,yangkemudianmengakibatkannilaiNewEstimateakanmenjadilebihkecildaripadaOldEstimate.

SedangkanStepSizemerupakanbesaranuntukmengaturseberapabesaragentmelakukanexploitationatauexploration.SemakinbesarnilaiStepSize,denganbatasan

maksimum1,makasemakinbesarkemungkinanagentuntukmelakukanexploitation.Begitujugasebaliknya,semakinkecilnilaiStepSize,denganbatasanminimum0,makasemakinbesarpulakemungkinagentuntukmelakukanexploration.

PadasaatnilaiStepSizedisetbesar,makainiakanmenyebabkanbesaranreward(baikrewardataupunpunishment)menjadisangatbesar,sehinggadampaknyaakanberpengaruhpadanilaiNewEstimateyangdidapatkanmempunyaiselisihyangsangatbesardenganOldEstimate.Karenaselisihyangsangatbesartersebut,sehinggadalamprosesaksiselanjutnya,agentakanlebihbesarkemungkinannyamelakukanprosesexploitation.

Tapisebaliknya,padasaatnilaiStepSizedisetkecil,makainiakanmenyebabkanbesaranreward(baikrewardataupunpunishment)menjadisangatkecil,sehinggadampaknyaakanberpengaruhpadanilaiNewEstimateyangdidapatkanmempunyaiselisihyangsangatkecildenganOldEstimate.Karenaselisihyangsangatkeciltersebut,sehinggadalamprosesaksiselanjutnya,agentakanlebihbesarkemungkinannyamelakukanprosesexploration.

REFERENSI:

SriKusumadewi,ArtificialIntelligence(TeknikdanAplikasinya),edisiI,penerbitGrahaIlmu,Yogya,2003.

SriMulyani,RisetOperasi,LembagaPenerbitFakultasEkonomiUI,Jakarta,2002.

MasashiSugiyama,PatternInformationProcessing,DepartmentofComputerScience,TokyoInstituteofTechnology,Japan.

R.S.Sutton,A.Barto,ReinforcementLearning:anIntroduction,secondprinting,1999,TheMITPress.

S.Booth,ReinforcementTheory,http://www.as.wvu.edu/~sbb/comm221/chapters/rf.htm,1999.

,M.E.Harmon,S.S.Harmon,ReinforcementLearning:aTutorial,http://citeseer.nj.nec.com/harmon96reinforcement.html1996.

D.Finton,WhatisReinforcementLearning,http://www.cs.wisc.edu/~finton/what-rl.html.S.Mahadevan,GlosarryofTerminologyinReinforcementLearning,http://www-anw.cs.umass.edu/rlr/terms.html

Y.Mansour,LectureNotesonReinforcementLearning,http://www.math.tau.ac.il/~mansour/rl.html

S.T.Hagen,B.Krse,AShortIntroductiontoReinforcementLearning,http://citeseer.ist.psu.edu/tenhagen97short.html,1997.

,S.Keerthi,B.Ravindran,ATutorialSurveyofReinforcementLearning,http://citeseer.ist.psu.edu/keerthi95tutorial.html1995.

Documents

Reinforcement Learning