Comparación de Algoritmos de Aprendizaje por Refuerzo: DQN vs PPO en el Juego Atari Amidar

Corzo Acuña, Fabrizio Mario

Publicación:
Comparación de Algoritmos de Aprendizaje por Refuerzo: DQN vs PPO en el Juego Atari Amidar

Autores

Resumen en español

En este proyecto implementé y comparé tres algoritmos de aprendizaje por refuerzo para jugar Amidar, un clásico de Atari: Q-Learning tabular (como punto de partida), DeepQ-Network (DQN), y Proximal Policy Optimization (PPO). Los experimentos arrojaron resultados claros: PPO obtuvo en promedio 293,88 ±84,91 puntos, mientras que DQN apenas alcanzó 89,69 ± 15,45, una diferencia de más del 200%. También desarrollé versiones optimizadas de PPO (“Mejorado” y “Ultra”) usando técnicas recientes como normalización de recompensas y arquitectura Impala-CNN, que mejoraron aún más la estabilidad durante el entrenamiento. El trabajo documenta tanto los éxitos como los problemas encontrados, incluyendo un fenómeno interesante de colapso de entropía en PPO que limita la diversidad de estrategias aprendidas.

Resumen en inglés

This project compares three reinforcement learning algorithms on Amidar, a classic Atari game: tabular Q-Learning as a baseline, Deep Q-Network (DQN), and Proximal Policy Optimization (PPO). The results were striking—PPO scored 293,88 ± 84,91 points on average, while DQN managed only 89,69 ± 15,45, a gap of over 200%. I also developed optimized PPO variants (“Improved” and “Ultra”) using recent techniques like reward normalization and Impala-CNN architecture, which further improved training stability. Beyond the numbers, this work documents practical challenges I encountered, including an entropy collapse phenomenon in PPO that caused the agent to learn only a handful of rigid strategies instead of adapting to different situations.