Publicación:
Comparación de Algoritmos de Aprendizaje por Refuerzo: DQN vs PPO en el Juego Atari Amidar

authorProfile.id.code202111240
dc.contributor.advisorTakahashi Rodríguez, Silvia
dc.contributor.authorCorzo Acuña, Fabrizio Mario
dc.contributor.juryTakahashi Rodríguez, Silvia
dc.date.accessioned2026-01-27T19:30:59Z
dc.date.available2026-01-27T19:30:59Z
dc.date.issued2026-01-22
dc.description.abstractEn este proyecto implementé y comparé tres algoritmos de aprendizaje por refuerzo para jugar Amidar, un clásico de Atari: Q-Learning tabular (como punto de partida), DeepQ-Network (DQN), y Proximal Policy Optimization (PPO). Los experimentos arrojaron resultados claros: PPO obtuvo en promedio 293,88 ±84,91 puntos, mientras que DQN apenas alcanzó 89,69 ± 15,45, una diferencia de más del 200%. También desarrollé versiones optimizadas de PPO (“Mejorado” y “Ultra”) usando técnicas recientes como normalización de recompensas y arquitectura Impala-CNN, que mejoraron aún más la estabilidad durante el entrenamiento. El trabajo documenta tanto los éxitos como los problemas encontrados, incluyendo un fenómeno interesante de colapso de entropía en PPO que limita la diversidad de estrategias aprendidas.spa
dc.description.abstractThis project compares three reinforcement learning algorithms on Amidar, a classic Atari game: tabular Q-Learning as a baseline, Deep Q-Network (DQN), and Proximal Policy Optimization (PPO). The results were striking—PPO scored 293,88 ± 84,91 points on average, while DQN managed only 89,69 ± 15,45, a gap of over 200%. I also developed optimized PPO variants (“Improved” and “Ultra”) using recent techniques like reward normalization and Impala-CNN architecture, which further improved training stability. Beyond the numbers, this work documents practical challenges I encountered, including an entropy collapse phenomenon in PPO that caused the agent to learn only a handful of rigid strategies instead of adapting to different situations.eng
dc.description.degreelevelPregrado
dc.format.extent42 páginas
dc.format.mimetypeapplication/pdf
dc.identifier.instnameinstname:Universidad de los Andes
dc.identifier.reponamereponame:Repositorio Institucional Séneca
dc.identifier.repourlrepourl:https://repositorio.uniandes.edu.co/
dc.identifier.urihttps://hdl.handle.net/1992/77986
dc.language.isospa
dc.publisherUniversidad de los Andes
dc.publisher.departmentDepartamento de Ingeniería de Sistemas y Computación
dc.publisher.facultyFacultad de Ingeniería
dc.publisher.programIngeniería de Sistemas y Computación
dc.relation.referencesV. Mnih, K. Kavukcuoglu, D. Silver, et al., “Playing Atari with Deep Reinforcement Learning,” NIPS Deep Learning Workshop, 2013.
dc.relation.referencesV. Mnih, K. Kavukcuoglu, D. Silver, et al., “Human-level control through deep reinfor cement learning,” Nature, vol. 518, no. 7540, pp. 529–533, 2015.
dc.relation.referencesJ. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, “Proximal Policy Optimization Algorithms,” arXiv preprint arXiv:1707.06347, 2017.
dc.relation.referencesJ. Schulman, P. Moritz, S. Levine, M. Jordan, and P. Abbeel, “High-Dimensional Continuous Control Using Generalized Advantage Estimation,” arXiv preprint ar Xiv:1506.02438, 2015
dc.relation.referencesD. Silver, A. Huang, C. J. Maddison, et al., “Mastering the game of Go with deep neural networks and tree search,” Nature, vol. 529, no. 7587, pp. 484–489, 2016.
dc.relation.referencesL. Espeholt, H. Soyer, R. Munos, et al., “IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures,” ICML, 2018.
dc.relation.referencesM. Hessel, J. Modayil, H. Van Hasselt, et al., “Rainbow: Combining Improvements in Deep Reinforcement Learning,” AAAI, 2018.
dc.relation.referencesM. Andrychowicz, A. Raichuk, P. Sta´nczyk, et al., “What Matters In On-Policy Rein forcement Learning? A Large-Scale Empirical Study,” ICLR, 2021.
dc.relation.referencesH. Van Hasselt, A. Guez, and D. Silver, “Deep Reinforcement Learning with Double Q-Learning,” AAAI, 2016.
dc.relation.referencesZ. Wang, T. Schaul, M. Hessel, et al., “Dueling Network Architectures for Deep Rein forcement Learning,” ICML, 2016.
dc.relation.referencesR. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, 2nd ed. MIT Press, 2018.
dc.relation.referencesG. Brockman, V. Cheung, L. Pettersson, et al., “OpenAI Gym,” arXiv preprint ar Xiv:1606.01540, 2016
dc.relation.referencesM. Towers, J. K. Terry, A. Kwiatkowski, et al., “Gymnasium: A Standard Interface for Reinforcement Learning Environments,” arXiv preprint arXiv:2407.17032, 2023.
dc.relation.referencesM. G. Bellemare, Y. Naddaf, J. Veness, and M. Bowling, “The Arcade Learning Envi ronment: An Evaluation Platform for General Agents,” Journal of Artificial Intelligence Research, vol. 47, pp. 253–279, 2013.
dc.relation.referencesL. Engstrom, A. Ilyas, S. Santurkar, et al., “Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO,” ICLR, 2020.
dc.rightsAttribution 4.0 Internationalen
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subject.keywordAprendizaje por refuerzospa
dc.subject.keywordDeep Q-Networkeng
dc.subject.keywordProximal Policy Optimizationeng
dc.subject.keywordAtarispa
dc.subject.keywordAmidarspa
dc.subject.keywordRedes neuronales convolucionalesspa
dc.subject.themesIngenieríaspa
dc.titleComparación de Algoritmos de Aprendizaje por Refuerzo: DQN vs PPO en el Juego Atari Amidarspa
dc.typeTrabajo de grado - Pregrado
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.contentText
dc.type.driverinfo:eu-repo/semantics/bachelorThesis
dc.type.redcolhttp://purl.org/redcol/resource_type/TP
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
dspace.entity.typePublication
person.identifier.cvlachttps://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000143898
person.identifier.gsidhttps://scholar.google.es/citations?user=x7gjZ04AAAAJ
person.identifier.orcid0000-0001-7971-8979
relation.isDirectorOfPublication7ab9a4e1-60f0-4e06-936b-39f2bf93d8a0
relation.isDirectorOfPublication.latestForDiscovery7ab9a4e1-60f0-4e06-936b-39f2bf93d8a0
Archivos
Bloque original
Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
Comparacion de Algoritmos de Aprendizaje por Refuerzo DQN vs PPO en el Juego Atari Amidar.pdf
Tamaño:
312.1 KB
Formato:
Adobe Portable Document Format
No hay miniatura disponible
Nombre:
Formato autorización proyecto de grado.pdf
Tamaño:
284.18 KB
Formato:
Adobe Portable Document Format
Descripción:
HIDE
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
2.48 KB
Formato:
Item-specific license agreed upon to submission
Descripción: