Implementación de un modelo afectivo para el robot NAO V6 en interacciones  sociales

Peña Jaime, Juan Pablo

Publicación:
Implementación de un modelo afectivo para el robot NAO V6 en interacciones sociales

Autores

Resumen en español

Este proyecto de grado parte de una limitación conocida en el robot humanoide NAO V6: aunque tiene un driver robusto para tareas interactivas, su conversación tiende a ser rígida, repetitiva y poco sensible al contexto emocional del usuario, dado que utilizarlo es una tarea mecánica. En escenarios sociales reales, esta rigidez reduce la sensación de naturalidad y dificulta que el robot sostenga interacciones empáticas. Por lo anterior, el objetivo central del trabajo fue diseñar e implementar un modelo afectivo que permitiera a NAO reconocer señales del usuario (expresiones faciales, voz y contexto visual), interpretarlas de forma integrada y responder con acciones verbales y no verbales coherentes, manteniendo una arquitectura modular y extensible. La solución propuesta se construyó sobre ROS2 Jazzy y se organizó mediante un conjunto de nodos desacoplados que se comunican bajo un patrón publicador–suscriptor. Dentro de estos módulos se incluyen: un nodo de transcripción de voz basado en Whisper, un nodo de clasificación emocional facial a partir de imágenes capturadas por el robot, un nodo de descripción de contexto visual para enriquecer la conversación, un puente hacia un modelo de lenguaje encargado de generar un plan de interacción, y un nodo renderizador de comportamientos que ejecuta el plan utilizando servicios NAOqi (habla, posturas, animaciones y control de LEDs). Además, se definió un flujo de activación sencillo por medio del sensor táctil de la cabeza: el primer toque activa la captura multimodal y el segundo la finaliza, disparando los procesos de inferencia y planeación. El plan generado se expresa en formato JSON, lo cual facilita el control, la trazabilidad de acciones y futuras extensiones del sistema. La validación se realizó en tres niveles: pruebas unitarias por módulo, pruebas de integración del pipeline completo y una evaluación con usuarios reales. Participaron 22 estudiantes universitarios, en su mayoría sin experiencia previa con robots, quienes interactuaron con Orion y respondieron una encuesta con escala Likert y preguntas abiertas. Los resultados evidencian alta aceptación de la interacción en términos de claridad, comprensión de intención, empatía percibida y comodidad, además de una calificación promedio de recomendación de 9,59/10. La principal oportunidad de mejora identificada se relaciona con la latencia de respuesta y la naturalidad de la voz. En conjunto, el proyecto demuestra que un modelo afectivo modular apoyado en modelos de lenguaje permite ampliar de manera significativa las capacidades sociales del NAO V6, manteniendo una base técnica sólida para iteraciones futuras.

Resumen en inglés

This undergraduate project addresses a known limitation of the NAO V6 humanoid robot: although it has a robust driver for interactive tasks, its conversation tends to be rigid, repetitive, and insensitive to the user's emotional context, given that using it is a mechanical task. In real world social scenarios, this rigidity reduces the sense of naturalness and makes it difficult for the robot to maintain empathetic interactions. Therefore, the central objective of this work was to design and implement an affective model that would allow NAO to recognize user signals (facial expressions, voice, and visual context), interpret them in an integrated way, and respond with coherent verbal and nonverbal actions, while maintaining a modular and extensible architecture. The proposed solution was built on ROS2 Jazzy and organized using a set of decoupled nodes that communicate under a publisher-subscriber pattern. These modules include: a Whisper-based voice transcription node, a facial emotion classification node using images captured by the robot, a visual context description node to enrich the conversation, a bridge to a language model responsible for generating an interaction plan, and a behavior rendering node that executes the plan using NAOqi services (speech, posture, animations, and LED control). A simple activation flow was also defined using the head's touch sensor: the first touch activates multimodal capture, and the second ends it, triggering the inference and planning processes. The generated plan is expressed in JSON format, which facilitates control, action traceability, and future system extensions. Validation was performed at three levels: unit tests for each module, integration tests of the entire pipeline, and an evaluation with real users. Twenty-two university students, mostly with no prior experience with robots, participated, interacting with Orion and answering a survey with a Likert scale and open-ended questions. The results show high acceptance of the interaction in terms of clarity, understanding of intent, perceived empathy, and comfort, along with an average recommendation rating of 9.59/10. The main area for improvement identified relates to response latency and voice naturalness. Overall, the project demonstrates that a modular affective model supported by language models significantly expands the social capabilities of the NAO V6, while maintaining a solid technical foundation for future iterations.