Título: Learning a Transferable World Model by Reinforcement Agent in Deterministic Observable Grid-World Environments
Pastiprinimu paremto agento gebėjimas mokytis ir perkelti išmoktą pasaulio modelį į kitas pasiekiamas deterministines iš laukelių sudarytas aplinkas
Autores: Kapočiūtė-Dzikienė, Jurgita; Vytautas Magnus University
Raškinis, Gailius; Vytautas Magnus University
Fecha: 2012-11-20
Publicador: Information technology and control
Fuente:
Tipo: Peer-reviewed
Tema: Agent; adaptive behavior; world model; learning; planning; decision tree; grid world; reinforcement; percept generalization
Adaptive agent; reinforcement learning; percept generalization; world model
Descripción: Reinforcement-based agents have difficulties in transferring their acquired knowledge into new different environments due to the common identities-based percept representation and the lack of appropriate generalization capabilities. In this paper, the problem of knowledge transferability is addressed by proposing an agent dotted with decision tree induction and constructive induction capabilities and relying on decomposable properties-based percept representation. The agent starts without any prior knowledge of its environment and of the effects of its actions. It learns a world model (the set of decision trees) that corresponds to the set of explicit action definitions predicting action effects in terms of agent’s percepts. Agent’s planning component uses predictions of the world model to chain actions via a breadth-first search. The proposed agent was compared to the Q-learning and Adaptive Dynamic Programming based agents and demonstrated better ability to achieve goals in static observable deterministic grid-world environments different from those in which it has learnt its world model.DOI: http://dx.doi.org/10.5755/j01.itc.41.4.915
Pastiprinimu paremti agentai mokytis susiduria su problemomis perkeldami vienoje aplinkoje įgytas žinias į naujasaplinkas: taip nutinka dėl receptorių pateikimų interpretavimo būdo ir mechanizmų, leidžiančių tinkamai apibendrinti receptoriųpateikimus, trūkumo. Straipsnyje ši žinių perkeliamumo problema yra sprendžiama pasiūlius agentą, kuris taiko sprendimųmedžio indukcijos ir konstrukcinės indukcijos metodus, o receptorių pateikimus interpretuoja kaip paskirstytą savybių rinkinį.Pradėdamas darbą agentas neturi jokių žinių nei apie aplinką, nei apie savo veiksmų pasekmes. Jis išmoksta pasaulio modelį(sprendimų medžių rinkinį), atitinkantį išsamius veiksmų aprašymus, pagal kurį turint konkrečius receptorių pateikimus, galimaprognozuoti veiksmų pasekmes. Agento planavimo komponentė, paremta paieškos platyn metodu: ji ieško veiksmų grandiniųnuo vienos aplinkos situacijos iki kitos naudodama pasaulio modelį ir pagal jį suprognozuotus receptorių pateikimus. Pasiūlytasmetodas palygintas su Q-mokymo ir Adaptyvaus dinaminio programavimo metodais: pateiktos metodų galimybės siekti tikslųstatinėse stebimose deterministinėse iš laukelių sudarytose aplinkose, taikant ne toje pačioje aplinkoje išmoktus pasauliomodelius.DOI: http://dx.doi.org/10.5755/j01.itc.41.4.915
Idioma: Inglés

Artículos similares:

SPEEDING-UP IMAGE ENCODING TIMES IN THE SPIHT ALGORITHM, por Valantinas, Jonas,Kančelkis, Deividas
CHARACTERISTICS OF CLASS COLLABORATION NETWORKS IN LARGE JAVA SOFTWARE PROJECTS por Savić, Miloš,Ivanović, Mirjana,Radovanović, Miloš
AN APPROACH FOR THE METAMODEL OF THE FRAMEWORK FOR A PARTIAL AGILE METHOD ADAPTATION por Mikulėnas, Gytenis,Butleris, Rimantas; Kaunas University of Technology,Nemuraitė, Lina
EXTREMES OF A BIVARIATE PARETO DISTRIBUTION por Hakamipour, Nooshin,Mohammadpour, Adel,Nadarajah, Saralees
10 
Programinės įrangos automatizuotojo testavimo per vartotojo sąsają metodas,A METHOD FOR AUTOMATED TESTING OF SOFTWARE INTERFACE por Ušaniov, Andrej; Kaunas University of Technology,Motiejūnas, Kęstutis; Kaunas University of Technology