El aprendizaje por refuerzo y sus aplicaciones

robotic-hand-pressing-keyboard-laptop_117023-903.jpg

El aprendizaje por refuerzo es un área de la inteligencia artificial que se enfoca en el estudio y desarrollo de técnicas para entrenar agentes en la toma de decisiones y ejecución de acciones para interactuar con un ambiente para maximizar una recompensa a obtener. En términos más concretos se trata de encontrar una política de decisión que debe de seguir un agente en función de estado. Lo típico es que un agente es una entidad computacional con cierta autonomía, es decir, no depende de la intervención humana para tomar decisiones. El ambiente es con lo que el agente interactúa, desde algo físico como un almacén con contenedores hasta algo tan abstracto como un proceso para tomar decisiones.

Este tipo de métodos, se han aplicado mucho en el área de robótica, donde podemos encontrar diversas aplicaciones como:

  • Un robot manipulador representa a un agente y el ambiente es un objeto y el ambiente que lo rodea, como cajas, una banda transportadora, etc. En este caso, el robot podemos hacer aprender políticas para que sepa como moverse sin colisionar.

  • En el área de conducción autónoma, el agente suele ser un automóvil autónomo y el ambiente la carretera o el camino, y la política a aprender es que el agente sepa como moverse en el camino sin chocar.

    Además del área de robótica, el aprendizaje por refuerzo se extendido a otras áreas donde tal vez el agente y el ambiente no es algo tan directo como en el área de robótica. Algunos ejemplos son:

  • En aplicaciones de administración de recursos computacionales en un clúster de computadoras para modificar los parámetros de tal forma que se pueda cubrir con la demanda aprovechando al máximo los recursos. En este caso el agente es un programa que se encargar de modificar parámetros y el ambiente es todo el clúster de servidores y su interacción con las peticiones de los usuarios [1].

  • En área de química se ha utilizado para optimizar el proceso de experimentación variando diversos factor y parámetros, como temperatura y pH, en una reacción química, encontrando la política que le permita reducir los tiempos de experimentación [2].

  • Se ha utilizado aprendizaje por refuerzo para generar políticas de recomendación personalizada de productos en función de las características de las clientes para maximizar la probabilidad de que las recomendaciones se conviertan en ventas [3].

 

Fuentes:

[1] Mao, H., Alizadeh, M., Menache, I., & Kandula, S. (2016, November). Resource management with deep reinforcement learning. In Proceedings of the 15th ACM Workshop on Hot Topics in Networks (pp. 50-56).

[2] Zhou, Z., Li, X., & Zare, R. N. (2017). Optimizing chemical reactions with deep reinforcement learning. ACS central science3(12), 1337-1344.

[3] Zheng, G., Zhang, F., Zheng, Z., Xiang, Y., Yuan, N. J., Xie, X., & Li, Z. (2018, April). DRN: A deep reinforcement learning framework for news recommendation. In Proceedings of the 2018 World Wide Web Conference (pp. 167-176).

Imagen diseñada por Freepik