Seminar za matematičku logiku i osnove matematike
Na Seminaru za matematičku logiku i osnove matematike, u ponedjeljak 21. prosinca 2020. u 17:15 sati,
Ivan Gavran (MPI-SWS) će održati predavanje
Sažetak: Standardni model za podržano učenje (Reinforcement Learning) jest Markov decision
process (MDP). Takozvana Markovljeva pretpostavka u MDP-u je da nagrada koju agent dobiva ovisi samo o posljednjem stanju MDP-a i agentovoj akciji. Ta pretpostavka, ipak, često nije zadovoljena ako problem modeliramo izravno: robot koji donese šalicu dobit će različitu nagradu u ovisnosti o tome je li šalica prazna ili puna kave (to jest, je li robot prije donošenja šalice otišao do kuhinje napuniti je). Kako bismo zadovoljili Markovljevu pretpostavku, potrebno je redefinirati stanje MDP-a (u primjeru s kavom, dodavanjem jedne varijable, koja bi pratila je li šalica puna ili prazna).
Pokušavajući identificirati najkoncizniji način za redefiniranje stanja u situacijama gdje Markovljeva pretpostavka nije zadovoljena, dosadašnji radovi sugerirali su korištenje konačnih automata u jednostavnom slučaju ili Mealyjevih mašina (koristi se još i ime reward machines) u generalnom slučaju i inkorporirali ih u
standardni q-learning algoritam. Ti radovi podrazumijevaju da će onaj tko zadaje zadatak
biti u stanju i definirati pripadajuću Mealyjevu mašinu. To ipak nije samorazumljivo: što ako nagrade nisu eksplicitno zadane nego dolaze iz okoline? U ovom seminaru govorit ću o modifikaciji postojećih algoritama
kako bi mogli naučiti odgovarajuću mašinu kroz interakciju s okolinom.
Podaci za online praćenje preko Zoom platforme:
Meeting ID: 923 0546 4243