Tesis/Trabajos de Grado
URI permanente para esta colección
Incluye documentos como: monografías, reportes, proyectos, prácticas, informes, entre otros; elaborados como requisito de grado para programas de pregrado y posgrado en la Universidad de los Andes.
Navegar
Examinando Tesis/Trabajos de Grado por Materia "Aagentes autónomos basados en LLM"
Mostrando 1 - 1 de 1
Resultados por página
Opciones de ordenación
Publicación Acceso abierto Benchmark para Agente Simple basado en GPT-4 mini para Robótica Social(Universidad de los Andes, 2026-01-29) Rodríguez Peña, Tomas Alberto; De La Rosa Rosero, Mario Fernando; Manrique Piramanrique, Rubén FranciscoLos agentes autónomos basados en Modelos de Lenguaje (LLM) constituyen una alternativa viable para dotar a los robots sociales de capacidades de razonamiento, memoria y planificación en lenguaje natural. Sin embargo, la evaluación comparativa de arquitecturas de agente único (single-agent) es aún fragmentada y carece de estándares unificados, generando importantes brechas en la reproducibilidad de resultados, la robustez ante el ruido perceptual del entorno y la portabilidad de las soluciones entre distintas plataformas robóticas. Frente a esta problemática, este proyecto de grado propone el diseño y la implementación de un banco de pruebas (benchmark) para la evaluación de arquitecturas de agente único que integran LLMs con herramientas de software. El protocolo de evaluación propuesto mantiene constante el módulo de herramientas (basado en ROS) para aislar y analizar específicamente el rendimiento de la política interna del agente, independientemente de las variaciones en la infraestructura subyacente. En concreto, el estudio compara cuatro arquitecturas agentivas: (1) una arquitectura de referencia que combina ReAct con reflexión breve y recuperación de memoria, estableciendo una línea base de rendimiento; (2) ReAct, que integra razonamiento y acción de forma iterativa para decidir el siguiente paso basándose en observaciones previas; (3) Plan-Then-Act, que realiza una planificación completa antes de ejecutar las acciones en secuencia; y (4) Reflexion, que incorpora auto-evaluación y aprendizaje continuo mediante retroalimentación verbal. La validación experimental se realiza en un entorno simulado de robot social (Pepper), midiendo métricas clave como la tasa de éxito en tareas, el número de pasos, el tiempo de ejecución y el consumo de tokens. Los escenarios de prueba incluyen tareas de navegación, búsqueda de objetos, interacción multi-persona, uso de memoria episódica, percepción del entorno y planificación condicional, cada una evaluada múltiples veces para validar la robustez de las arquitecturas. Este enfoque permite identificar las fortalezas y limitaciones de cada estrategia agentiva, aportando datos para la selección de arquitecturas según los requisitos de aplicaciones robóticas sociales.