Título: Regularized reinforcement learning with performance guarantees
Autores: Milani Fard, Mahdi
Fecha: 2014
Publicador: McGill University - MCGILL
Fuente:
Tipo: Electronic Thesis or Dissertation
Tema: Applied Sciences - Computer Science
Descripción: Reinforcement learning covers a broad category of control problems in which the learning agent interacts with the environment in order to learn to maximize the collected utility. Such exploratory interaction is often costly, encouraging sample-efficient algorithms to be used in the process. This thesis explores two avenues that can help improve the sample complexity of such algorithms, one through prior domain knowledge on the dynamics or utilities, and the other by leveraging sparsity structures in the collected observations.We take advantage of domain knowledge in the form of a prior distribution to develop PAC-Bayesian regularized model-selection algorithms for the batch reinforcement learning problem, providing performance guarantees that hold regardless of the correctness of the prior distribution. We show how PAC-Bayesian policy evaluation can leverage prior distributions when they are informative and, unlike standard Bayesian approaches, ignore them when they are misleading.In the absence of prior knowledge, we explore regularization of model-selection through random compressed sensing when generating features for the policy evaluation problem. In commonly occurring sparse observation spaces, such compression can help control the estimation error by substantially reducing the dimensionality of the regression space, at the cost of a small induced bias.Our proposed methods can provably outperform the alternatives in sample or time complexity, showcasing how informed or agnostic regularization can further impact the effectiveness of reinforcement learning algorithms.
L'apprentissage par renforcement couvre un grand nombre de problèmes de contrôle pour lesquels l'agent apprenant interagit avec l'environment afin d'apprendre à maximiser l'utilité collectée. La phase d'interaction exploratoire est souvent coûteuse, encourageant l'utilisation d'algorithmes faisant un usage efficace des échantillons. Cette thèse explore deux avenues de recherche qui peuvent aider à améliorer l'efficacité d'échantillonnage de ces algorithmes: d'une part en utilisant une connaissance apriori des dynamiques ou utilités, et d'une autre en exploitant les structures creuses (``sparse structures'') dans les observations collectées.Nous tirons profit de la connaissance du domaine sous forme de distribution apriori afin de développer des algorithmes régularisés de sélection de modèle de type PAC-Bayésien pour le problème d'apprentissage par renforcement par lots. Nous obtenons ainsi des garanties de performance applicables indépendamment du choix de distribution apriori. Nous démontrons comment les politiques d'évaluation PAC-Bayésiennes peuvent faire usage des distributions apriori lorsque celles-ci sont informatives, et dans le cas contraire, arrivent à les ignorer.En l'absence de connaissance apriori, nous explorons la régularisation de la sélection de modèle par l'entremise de l'acquisition comprimée lorsque des caractéristiques doivent être générées pour le problème d'évaluation de politique. Pour les espaces d'observations creux les plus fréquents, une telle compression peut aider à contrôler l'erreur d'estimation en réduisant significativement la dimension de l'espace de régression sans induire un biais trop important.Les méthodes que nous proposons peuvent surpasser de manière prouvable les alternatives quant à leur efficacité d'échantillonnage et complexité en temps, démontrant du même coup comment la régularisation informée ou agnostique peut avoir un impact sur l'efficacité des algorithmes d'apprentissage par renforcement.
Idioma: en