Abstract
In a zero-sum stochastic game, at each stage, two adversary players take decisions and receive a stage payoff determined by them and by a controlled random variable representing the state of nature. The total payoff is the normalized discounted sum of the stage payoffs. In this paper we solve the “constant payoff” conjecture formulated by Sorin, Venel and Vigeral (Sankhya A 72 (1) (2010) 237–245): if both players use optimal strategies, then for any , the expected discounted payoff between stage 1 and stage tends to the limit discounted value of the game, as the discount rate λ goes to 0.
Dans un jeu stochastique à somme nulle, à chaque étape, deux joueurs adversaires prennent des décisions et reçoivent un paiement d’étape déterminé par ces décisions, ainsi que par une variable aléatoire contrôlée qui représente l’état de la nature. Le paiement total est la somme escomptée et normalisée des paiements d’étape. Dans cet article, nous résolvons la conjecture du “paiement constant”, formulée par Sorin, Venel et Vigeral (Sankhya A 72 (1) (2010) 237–245) : si les deux joueurs jouent des stratégies optimales, alors pour tout , l’espérance du paiement escompté entre les étapes 1 et tend vers la limite de la valeur escomptée du jeu, lorsque le facteur d’escompte λ tend vers 0.
Acknowledgements
We are greatly indebted to Sylvain Sorin, whose comments have led to significant improvements in the presentation of the paper. We are also very thankful to Abraham Neyman for his careful reading and numerous remarks, and also to Cyril Labbé, Rida Laraki, Eran Shmaya and Guillaume Vigeral for helpful discussions. This work was supported by the Fondation Mathématique Jacques Hadamard [Program PGMO RSG 2018-0031H] with the support of EDF, Thales, Orange, and Criteo.
Citation
Olivier Catoni. Miquel Oliu-Barton. Bruno Ziliotto. "Constant payoff in zero-sum stochastic games." Ann. Inst. H. Poincaré Probab. Statist. 57 (4) 1888 - 1900, November 2021. https://doi.org/10.1214/20-AIHP1146
Information