Metabuscador

Inicio Atrás
Título:	Learning a Transferable World Model by Reinforcement Agent in Deterministic Observable Grid-World Environments Pastiprinimu paremto agento gebėjimas mokytis ir perkelti išmoktą pasaulio modelį į kitas pasiekiamas deterministines iš laukelių sudarytas aplinkas
Autores:	Kapočiūtė-Dzikienė, Jurgita; Vytautas Magnus University Raškinis, Gailius; Vytautas Magnus University
Fecha:	2012-11-20
Publicador:	Information technology and control
Fuente:
Tipo:	Peer-reviewed
Tema:	Agent; adaptive behavior; world model; learning; planning; decision tree; grid world; reinforcement; percept generalization Adaptive agent; reinforcement learning; percept generalization; world model
Descripción:	Reinforcement-based agents have difficulties in transferring their acquired knowledge into new different environments due to the common identities-based percept representation and the lack of appropriate generalization capabilities. In this paper, the problem of knowledge transferability is addressed by proposing an agent dotted with decision tree induction and constructive induction capabilities and relying on decomposable properties-based percept representation. The agent starts without any prior knowledge of its environment and of the effects of its actions. It learns a world model (the set of decision trees) that corresponds to the set of explicit action definitions predicting action effects in terms of agent’s percepts. Agent’s planning component uses predictions of the world model to chain actions via a breadth-first search. The proposed agent was compared to the Q-learning and Adaptive Dynamic Programming based agents and demonstrated better ability to achieve goals in static observable deterministic grid-world environments different from those in which it has learnt its world model.DOI: http://dx.doi.org/10.5755/j01.itc.41.4.915 Pastiprinimu paremti agentai mokytis susiduria su problemomis perkeldami vienoje aplinkoje įgytas žinias į naujasaplinkas: taip nutinka dėl receptorių pateikimų interpretavimo būdo ir mechanizmų, leidžiančių tinkamai apibendrinti receptoriųpateikimus, trūkumo. Straipsnyje ši žinių perkeliamumo problema yra sprendžiama pasiūlius agentą, kuris taiko sprendimųmedžio indukcijos ir konstrukcinės indukcijos metodus, o receptorių pateikimus interpretuoja kaip paskirstytą savybių rinkinį.Pradėdamas darbą agentas neturi jokių žinių nei apie aplinką, nei apie savo veiksmų pasekmes. Jis išmoksta pasaulio modelį(sprendimų medžių rinkinį), atitinkantį išsamius veiksmų aprašymus, pagal kurį turint konkrečius receptorių pateikimus, galimaprognozuoti veiksmų pasekmes. Agento planavimo komponentė, paremta paieškos platyn metodu: ji ieško veiksmų grandiniųnuo vienos aplinkos situacijos iki kitos naudodama pasaulio modelį ir pagal jį suprognozuotus receptorių pateikimus. Pasiūlytasmetodas palygintas su Q-mokymo ir Adaptyvaus dinaminio programavimo metodais: pateiktos metodų galimybės siekti tikslųstatinėse stebimose deterministinėse iš laukelių sudarytose aplinkose, taikant ne toje pačioje aplinkoje išmoktus pasauliomodelius.DOI: http://dx.doi.org/10.5755/j01.itc.41.4.915
Idioma:	Inglés

1 SPEEDING-UP IMAGE ENCODING TIMES IN THE SPIHT ALGORITHM, por Valantinas, Jonas,Kančelkis, Deividas	6 CHARACTERISTICS OF CLASS COLLABORATION NETWORKS IN LARGE JAVA SOFTWARE PROJECTS por Savić, Miloš,Ivanović, Mirjana,Radovanović, Miloš
2 INTEGRATION OF THE SELF-ORGANIZING MAP AND NEURAL GAS WITH MULTIDIMENSIONAL SCALING por Kurasova, Olga,Molytė, Alma	7 LATTICE PWL MODELING OF SEPARABLE CONVEX FUNCTIONS AND ITS APPLICATION TO THE VEHICLE FOLLOWING PROBLEM por Khan*, Junaid M.,Wang, Shuning
3 ON RECURSIVE PARAMETRIC IDENTIFICATION OF WIENER SYSTEMS por Pupeikis, Rimantas	8 AN APPROACH FOR THE METAMODEL OF THE FRAMEWORK FOR A PARTIAL AGILE METHOD ADAPTATION por Mikulėnas, Gytenis,Butleris, Rimantas; Kaunas University of Technology,Nemuraitė, Lina
4 A FAULT-TOLERANT EMERGENCY-AWARE ACCESS CONTROL SCHEME FOR CYBER-PHYSICAL SYSTEMS por Wu, Guowei,Lu, Dongze,Xia*, Feng,Yao, Lin	9 EXTREMES OF A BIVARIATE PARETO DISTRIBUTION por Hakamipour, Nooshin,Mohammadpour, Adel,Nadarajah, Saralees
5 AN AUTOMATIC CALIBRATION METHOD BASED ON FEATURE POINT MATCHING FOR THE COOPERATION OF WIDE-ANGLE AND PAN-TILT-ZOOM CAMERAS, por Liao, Hsien-Chou,Pan, Ming-Ho,Hwang, Hung-Wei,Chang, Min-Chih,Chen, Po-Cheng	10 Programinės įrangos automatizuotojo testavimo per vartotojo sąsają metodas,A METHOD FOR AUTOMATED TESTING OF SOFTWARE INTERFACE por Ušaniov, Andrej; Kaunas University of Technology,Motiejūnas, Kęstutis; Kaunas University of Technology