Policy gradient methods for ordinal policies ; Une approche policy-gradient pour des actions ordinales

Item request has been placed!

Item request cannot be made.

Processing Request

Read More Add to Saved list

Author(s): Weinberger, Simón; Cugliari, Jairo
Source:
Journées de statistiques 2025 ; https://hal.science/hal-05123347 ; Journées de statistiques 2025, Société Française des Statistiques, Jun 2023, Marseille, France
Subject Terms:
Reinforcement leaning; Ordinal regression; Policy gradient methods; [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST]; [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG]
Document Type:
conference object
Language:
French

Additional Information
- Contributors:
  Essilor International; Entrepôts, Représentation et Ingénierie des Connaissances (ERIC); Université Lumière - Lyon 2 (UL2)-Université Claude Bernard Lyon 1 (UCBL); Université de Lyon-Université de Lyon; Société Française des Statistiques
- Publication Information:
  CCSD
- Publication Date:
  2023
- Collection:
  Université de Lyon: HAL
- Subject Terms:
  Marseille; France
- Abstract:
  International audience ; In reinforcement learning, the softmax parametrization is the standard approach for policies over discrete action spaces. However, it fails to capture the order relationship between actions. Motivated by a real-world industrial problem, we propose a novel policy parametrization based on ordinal regression models adapted to the reinforcement learning setting. Our approach addresses practical challenges, and numerical experiments demonstrate its effectiveness in real applications and in continuous action tasks, where discretizing the action space and applying the ordinal policy yields competitive performance. ; En apprentissage par renforcement, la paramétrisation softmax est l’approche standard pour les politiques sur des espaces d’actions discrètes. Cependant, elle ne prend pas en compte la relation d’ordre entre les actions. Motivés par un problème industriel réel, nous proposons une nouvelle paramétrisation de politiques basée sur les modèles de régression ordinale, adaptés au cadre de l’apprentissage par renforcement. Notre approche répond aux défis pratiques, et des expériences numériques démontrent son efficacité dans des applications réelles et dans des tâches à actions continues, où la discrétisation de l’espace d’actions combinée à la politique ordinale offre des performances compétitives.
- Online Access:
  https://hal.science/hal-05123347
  https://hal.science/hal-05123347v1/document
  https://hal.science/hal-05123347v1/file/JDS3___La_chambre_secr%C3%A8te.pdf
- Rights:
  https://about.hal.science/hal-authorisation-v1/ ; info:eu-repo/semantics/OpenAccess
- Accession Number:
  edsbas.7A8F1DF0

Comments

No Comments.

Policy gradient methods for ordinal policies ; Une approche policy-gradient pour des actions ordinales

Contact

Follow us