Seminar za matematičku logiku i osnove matematike

lokacija: 
PMF Matematički odsjek (virtualno)
vrijeme: 
21.12.2020 - 17:15 - 19:00

Na Seminaru za matematičku logiku i osnove matematike, u ponedjeljak 21. prosinca 2020. u 17:15 sati,

Ivan Gavran (MPI-SWS) će održati predavanje

 

Istovremeno učenje strategija i Mealyjevih mašina u RL-u

 

Sažetak: Standardni model za podržano učenje (Reinforcement Learning) jest Markov decision

process (MDP). Takozvana Markovljeva pretpostavka u MDP-u je da nagrada koju agent dobiva ovisi samo o posljednjem stanju MDP-a i agentovoj akciji. Ta pretpostavka, ipak, često nije zadovoljena ako problem modeliramo izravno: robot koji donese šalicu dobit će različitu nagradu u ovisnosti o tome je li šalica prazna ili puna kave (to jest, je li robot prije donošenja šalice otišao do kuhinje napuniti je). Kako bismo zadovoljili Markovljevu pretpostavku, potrebno je redefinirati stanje MDP-a (u primjeru s kavom, dodavanjem jedne varijable, koja bi pratila je li šalica puna ili prazna).

Pokušavajući identificirati najkoncizniji način za redefiniranje stanja u situacijama gdje Markovljeva pretpostavka nije zadovoljena, dosadašnji radovi sugerirali su korištenje konačnih automata u jednostavnom slučaju ili Mealyjevih mašina (koristi se još i ime reward machines) u generalnom slučaju i inkorporirali ih u

standardni q-learning algoritam. Ti radovi podrazumijevaju da će onaj tko zadaje zadatak

biti u stanju i definirati pripadajuću Mealyjevu mašinu. To ipak nije samorazumljivo: što ako nagrade nisu eksplicitno zadane nego dolaze iz okoline? U ovom seminaru govorit ću o modifikaciji postojećih algoritama

kako bi mogli naučiti odgovarajuću mašinu kroz interakciju s okolinom. 

 

Podaci za online praćenje preko Zoom platforme:

 
Topic: SLOM
Share this