Abstract: International audience ; In reinforcement learning, the softmax parametrization is the standard approach for policies over discrete action spaces. However, it fails to capture the order relationship between actions. Motivated by a real-world industrial problem, we propose a novel policy parametrization based on ordinal regression models adapted to the reinforcement learning setting. Our approach addresses practical challenges, and numerical experiments demonstrate its effectiveness in real applications and in continuous action tasks, where discretizing the action space and applying the ordinal policy yields competitive performance. ; En apprentissage par renforcement, la paramétrisation softmax est l’approche standard pour les politiques sur des espaces d’actions discrètes. Cependant, elle ne prend pas en compte la relation d’ordre entre les actions. Motivés par un problème industriel réel, nous proposons une nouvelle paramétrisation de politiques basée sur les modèles de régression ordinale, adaptés au cadre de l’apprentissage par renforcement. Notre approche répond aux défis pratiques, et des expériences numériques démontrent son efficacité dans des applications réelles et dans des tâches à actions continues, où la discrétisation de l’espace d’actions combinée à la politique ordinale offre des performances compétitives.
No Comments.