Annales de l'Institut Henri Poincaré, Probabilités et Statistiques

Diffusion limit for the random walk Metropolis algorithm out of stationarity

Juan Kuntz, Michela Ottobre, and Andrew M. Stuart

Full-text: Access denied (no subscription detected)

We're sorry, but we are unable to provide you with the full text of this article because we are not able to identify you as a subscriber. If you have a personal subscription to this journal, then please login. If you are already logged in, then you may need to update your profile to register your subscription. Read more about accessing full-text

Abstract

The Random Walk Metropolis (RWM) algorithm is a Metropolis–Hastings Markov Chain Monte Carlo algorithm designed to sample from a given target distribution $\pi^{N}$ with Lebesgue density on $\mathbb{R}^{N}$. Like any other Metropolis–Hastings algorithm, RWM constructs a Markov chain by randomly proposing a new position (the “proposal move”), which is then accepted or rejected according to a rule which makes the chain reversible with respect to $\pi^{N}$. When the dimension $N$ is large, a key question is to determine the optimal scaling with $N$ of the proposal variance: if the proposal variance is too large, the algorithm will reject the proposed moves too often; if it is too small, the algorithm will explore the state space too slowly. Determining the optimal scaling of the proposal variance gives a measure of the cost of the algorithm as well. One approach to tackle this issue, which we adopt here, is to derive diffusion limits for the algorithm. Such an approach has been proposed in the seminal papers (Ann. Appl. Probab. 7 (1) (1997) 110–120; J. R. Stat. Soc. Ser. B. Stat. Methodol. 60 (1) (1998) 255–268). In particular, in (Ann. Appl. Probab. 7 (1) (1997) 110–120) the authors derive a diffusion limit for the RWM algorithm under the two following assumptions: (i) the algorithm is started in stationarity; (ii) the target measure $\pi^{N}$ is in product form. The present paper considers the situation of practical interest in which both assumptions (i) and (ii) are removed. That is (a) we study the case (which occurs in practice) in which the algorithm is started out of stationarity and (b) we consider target measures which are in non-product form. Roughly speaking, we consider target measures that admit a density with respect to Gaussian; such measures arise in Bayesian nonparametric statistics and in the study of conditioned diffusions. We prove that, out of stationarity, the optimal scaling for the proposal variance is $O(N^{-1})$, as it is in stationarity. In this optimal scaling, a diffusion limit is obtained and the cost of reaching and exploring the invariant measure scales as $O(N)$. Notice that the optimal scaling in and out of stationatity need not be the same in general, and indeed they differ e.g. in the case of the MALA algorithm (Stoch. Partial Differ. Equ. Anal Comput. 6 (3) (2018) 446–499). More importantly, our diffusion limit is given by a stochastic PDE, coupled to a scalar ordinary differential equation; such an ODE gives a measure of how far from stationarity the process is and can therefore be taken as an indicator of convergence. In this sense, this paper contributes understanding to the old-standing problem of monitoring convergence of MCMC algorithms.

Résumé

L’algorithme Random Walk Metropolis (RWM) est un algorithme de Markov Chain Monte Carlo de type Metropolis–Hastings, conçu pour échantillonner une variable aléatoire de loi cible $\pi^{N}$ ayant une densité par rapport à la mesure de Lebesgue sur $\mathbb{R}^{N}$. Comme tout algorithme de Metropolis–Hastings, RWM construit une chaîne de Markov en proposant une nouvelle position au hasard (le « pas proposé »), qui est ensuit accepté ou rejeté selon une règle choisie de sorte à rendre la chaîne réversible par rapport à $\pi^{N}$. Lorsque la dimension $N$ est grande, une question cruciale est de déterminer l’échelle optimale (dépendant de $N$) de la variance du pas proposé : si cette variance est trop grande, l’algorithme rejettera les pas proposés trop souvent ; si elle est top petite, l’algorithme explorera l’espace d’états trop lentement. Déterminer l’échelle optimale de la variance donne également une mesure du coût de l’algorithme. Notre approche à ce problème est de déterminer des limites de diffusion pour l’algorithme. Une telle approche a été proposée dans les travaux fondateurs (Ann. Appl. Probab. 7 (1) (1997) 110–120; J. R. Stat. Soc. Ser. B. Stat. Methodol. 60 (1) (1998) 255–268); en particulier, dans (Ann. Appl. Probab. 7 (1) (1997) 110–120), les auteurs déterminent une limite de diffusion pour l’algorithme RWM en supposant : (i) que l’algorithme démarre de la mesure stationnaire ; (ii) que la mesure cible $\pi^{N}$ ait une forme produit. Le présent travail étudie la situation d’intérêt pratique où ces deux suppositions n’ont pas lieu. Ainsi (a) nous étudions le cas (qui a lieu en pratique) où l’algorithme commence dans un état non-stationnaire, et (b) nous considérons des mesures cibles qui n’ont ps une forme produit : en gros, les mesures que nous considérons ont une densité par rapport à la mesure gaussienne, et qui interviennent en statistique bayesienne non-paramétrique et dans l’étude des diffusions conditionnées. Nous montrons que, dans l’état non-stationnaire, l’échelle optimale de la variance du pas proposé est $O(N^{-1})$, c’est-à-dire la même que dans l’état stationnaire. À cette échelle optimale, nous obtenons une limite de diffusion et le coût pour atteindre et explorer la mesure invariante est d’ordre $O(N)$. Notons que les échelles optimales dans les cas stationnaires et non-stationnaires ne sont en générales pas les mêmes, et diffèrent par exemple dans le cas de l’algorithme MALA (Stoch. Partial Differ. Equ. Anal Comput. 6 (3) (2018) 446–499). De façon plus importante, notre limite de diffusion est donnée par une EDP stochastique couplée à une équation différentielle ordinaire scalaire. Une telle équation donne une mesure de la distance du processus à l’état stationnaire, et peut donc être vue comme un indicateur de convergence. En ce sens, ce travail contribue à comprendre le problème ancien de contrôler la convergence des algorithmes MCMC.

Article information

Source
Ann. Inst. H. Poincaré Probab. Statist., Volume 55, Number 3 (2019), 1599-1648.

Dates
Received: 3 September 2016
Revised: 19 December 2017
Accepted: 28 August 2018
First available in Project Euclid: 25 September 2019

Permanent link to this document
https://projecteuclid.org/euclid.aihp/1569398880

Digital Object Identifier
doi:10.1214/18-AIHP929

Mathematical Reviews number (MathSciNet)
MR4010946

Subjects
Primary: 60J22: Computational methods in Markov chains [See also 65C40]
Secondary: 60J20: Applications of Markov chains and discrete-time Markov processes on general state spaces (social mobility, learning theory, industrial processes, etc.) [See also 90B30, 91D10, 91D35, 91E40] 60H10: Stochastic ordinary differential equations [See also 34F05]

Keywords
Markov Chain Monte Carlo Random Walk Metropolis algorithm Diffusion limit Optimal scaling

Citation

Kuntz, Juan; Ottobre, Michela; Stuart, Andrew M. Diffusion limit for the random walk Metropolis algorithm out of stationarity. Ann. Inst. H. Poincaré Probab. Statist. 55 (2019), no. 3, 1599--1648. doi:10.1214/18-AIHP929. https://projecteuclid.org/euclid.aihp/1569398880


Export citation

References

  • [1] E. Berger. Asymptotic behaviour of a class of stochastic approximation procedures. Probab. Theory Related Fields 71 (4) (1986) 517–552.
  • [2] O. F. Christensen, G. O. Roberts and J. S. Rosenthal. Scaling limits for the transient phase of local Metropolis–Hastings algorithms. J. R. Stat. Soc. Ser. B. Stat. Methodol. 67 (2) (2005) 253–268.
  • [3] M. Hairer, A. M. Stuart and J. Voss. Analysis of SPDEs arising in path sampling. Part II: The nonlinear case. Ann. Appl. Probab. 17 (5–6) (2007) 1657–1706.
  • [4] M. Hairer, A. M. Stuart, J. Voss and P. Wiberg. Analysis of SPDEs arising in path sampling. Part I: The Gaussian case. Commun. Math. Sci. 3 (2005) 587–603.
  • [5] I. S. Helland. Central limit theorems for martingales with discrete or continuous time. Scand. J. Stat. 9 (2) (1982) 79–94.
  • [6] B. Jourdain, T. Lelièvre and B. Miasojedow. Optimal scaling for the transient phase of Metropolis Hastings algorithms: The longtime behavior. Bernoulli 20 (4) (2014) 1930–1978.
  • [7] B. Jourdain, T. Lelièvre and B. Miasojedow. Optimal scaling for the transient phase of the random walk Metropolis algorithm: The mean-field limit. Ann. Appl. Probab. 25 (4) (2015) 2263–2300.
  • [8] J. Kuntz, M. Ottobre and A. M. Stuart. Non-stationary phase of the MALA algorithm. Stoch. Partial Differ. Equ. Anal Comput. 6 (3) (2018) 446–499.
  • [9] J. C. Mattingly, N. S. Pillai and A. M. Stuart. Diffusion limits of the random walk Metropolis algorithm in high dimensions. Ann. Appl. Probab. 22 (3) (2012) 881–930.
  • [10] M. Ottobre, N. S. Pillai, F. J. Pinski and A. M. Stuart. A function space HMC algorithm with second order Langevin diffusion limit. Bernoulli 22 (1) (2016) 60–106.
  • [11] N. S. Pillai, A. M. Stuart and A. H. Thiéry. Optimal scaling and diffusion limits for the Langevin algorithm in high dimensions. Ann. Appl. Probab. 22 (6) (2012) 2320–2356.
  • [12] N. S. Pillai, A. M. Stuart and A. H. Thiéry. Noisy gradient flow from a random walk in Hilbert space. In Stochastic Partial Differential Equations: Analysis and Computations 196–232, 2, 2014.
  • [13] C. Prévôt and M. Röckner. A Concise Course on Stochastic Partial Differential Equations. Lecture Notes in Mathematics 1905. Springer-Verlag, Berlin, 2007.
  • [14] G. O. Roberts, A. Gelman and W. R. Gilks. Weak convergence and optimal scaling of random walk Metropolis algorithms. Ann. Appl. Probab. 7 (1) (1997) 110–120.
  • [15] G. O. Roberts and J. S. Rosenthal. Optimal scaling of discrete approximations to Langevin diffusions. J. R. Stat. Soc. Ser. B. Stat. Methodol. 60 (1) (1998) 255–268.
  • [16] A. M. Stuart. Inverse problems: A Bayesian perspective. Acta Numer. 19 (2010) 451–559.
  • [17] L. Tierney. A note on Metropolis–Hastings kernels for general state spaces. Ann. Appl. Probab. 8 (1) (1998) 1–9.