Performance guarantees for policy learning

Alex Luedtke; Antoine Chambaz

doi:10.1214/19-AIHP1034

August 2020 Performance guarantees for policy learning

Alex Luedtke, Antoine Chambaz

Ann. Inst. H. Poincaré Probab. Statist. 56(3): 2162-2188 (August 2020). DOI: 10.1214/19-AIHP1034

Abstract

This article gives performance guarantees for the regret decay in optimal policy estimation. We give a margin-free result showing that the regret decay for estimating a within-class optimal policy is second-order for empirical risk minimizers over Donsker classes when the data are generated from a fixed data distribution that does not change with sample size, with regret decaying at a faster rate than the standard error of an efficient estimator of the value of an optimal policy. We also present a result giving guarantees on the regret decay of policy estimators for the case that the policy falls within a restricted class and the data are generated from local perturbations of a fixed distribution, where this guarantee is uniform in the direction of the local perturbation. Finally, we give a result from the classification literature that shows that faster regret decay is possible via plug-in estimation provided a margin condition holds. Three examples are considered. In these examples, the regret is expressed in terms of either the mean value or the median value, and the number of possible actions is either two or finitely many.

Cet article présente des garanties de performance concernant la vitesse à laquelle le regret s’amenuise dans le cadre de l’estimation d’une politique d’action optimale. Si la politique optimale est définie comme optimale relativement à un ensemble de politiques formant une classe de Donsker, et si elle est estimée par minimisation sur cet ensemble d’une estimation du regret vu comme une fonction sur celui-ci, alors un premier résultat révèle que la vitesse est de second ordre dès lors que les observations sont générées sous une loi qui ne change pas à mesure que leur nombre augmente. Plus spécifiquement, le regret de l’estimateur de la politique optimale s’amenuise plus rapidement que l’écart type d’un estimateur efficace de la valeur d’une politique optimale. Ce résultat ne nécessite pas le recours à une hypothèse de marge. Un second résultat porte sur la vitesse à laquelle le regret de l’estimateur de la politique optimale s’amenuise lorsque les observations sont générées sous des lois définies comme des perturbations locales d’une loi de référence fixe, la garantie de performance étant alors uniforme relativement aux directions de perturbation. Finalement, un troisième résultat montre qu’il est possible d’atteindre des vitesses plus rapides en mettant en œuvre une procédure d’estimation par substitution à la condition qu’une hypothèse de marge soit satisfaite. Ce résultat s’inspire de la littérature consacrée à la classification. Trois exemples illustrent nos trouvailles. Dans ceux-ci, le regret s’exprime en termes de valeur moyenne ou de valeur médiane, et les actions envisageables sont au nombre de deux ou bien en nombre fini.

Citation

Download Citation

Alex Luedtke. Antoine Chambaz. "Performance guarantees for policy learning." Ann. Inst. H. Poincaré Probab. Statist. 56 (3) 2162 - 2188, August 2020. https://doi.org/10.1214/19-AIHP1034