Aprendizaje por refuerzo: entrenando robots en simulación y desplegándolos en la realidad

Vector de Tecnología creado por macrovector - www.freepik.es

Vector de Tecnología creado por macrovector - www.freepik.es

En el área de ‘aprendizaje por refuerzo’ entrenar robots para realizar actividades complejas podría tener resultados catastróficos. Tomando en cuenta que el robot debe explorar ambientes no conocidos donde interactúa con herramientas, humanos y equipo industrial, además de que no ha sido programado explícitamente para seguir una trayectoria, pues se trata de que aprenda explorando, la probabilidad de que genere daños en humanos, en equipos a su alrededor o a sí mismo es inevitable.

Para evitar esto, el aprendizaje por refuerzo (RL Reinforcement Learning) se lleva a cabo en simulaciones realistas controladas. Las simulaciones son entornos atractivos para los agentes/robots a entrenar, ya que proporcionan una fuente abundante de datos y alivian las preocupaciones de seguridad durante el proceso de entrenamiento.

Modelado del robot real en ambiente simulado (tomado de [1])

Modelado del robot real en ambiente simulado (tomado de [1])

Sin embargo, los comportamientos o trayectorias desarrollados por los agentes robóticos en la simulación a menudo son demasiado específicos a las características del simulador o las variables que se tomaron en cuenta.

 Regularmente, se debe a un error de modelado, las estrategias que tienen éxito en la simulación pueden no transferirse a sus contrapartes del mundo real.

Uno de los equipos de investigación más sólidos en el mundo en este tema es OpenAI [2], una compañía de investigación de inteligencia artificial sin fines de lucro creada con fondos privados para democratizar la inteligencia artificial, es decir, generar métodos, algoritmos, datos y herramientas que sean libres al público para su uso.

 En [1], el equipo de investigación demostró un método simple para cerrar la "brecha entre la simulación y la realidad".

Para lograrlo, generan dinámicas aleatorias durante el entrenamiento. Con ello, los algoritmos tienen que adaptarse a las dinámicas variantes del entorno. En las dinámicas variantes, incluyen variables aleatorias o ‘ruido’ para que se asemeje y generalice mejor a la realidad.

 Esta publicación es una de las primeras en demostrar la transferencia de conocimiento de un mundo virtual a uno real con robots manipulados para realizar una tarea compleja que es capaz de adaptarse a errores de calibración grandes.

Sin duda el aprendizaje por refuerzo, a pesar de ser una técnica que data de hace más de tres décadas, se está convirtiendo en una herramienta muy útil para el desarrollo de habilidades en los robots industriales.

PhD Reyes Rios Cabrera

Referencias:

[1] Xue Bin Peng, Marcin Andrychowicz, Wojciech Zaremba and Pieter Abbeel, Sim-to-Real Transfer of Robotic Control with Dynamics Randomization, 2017

[2] OpenIA: Open Artificial Intelligence, https://openai.com/

Guest User