Open Access
February 2017 Geodesic PCA in the Wasserstein space by convex PCA
Jérémie Bigot, Raúl Gouet, Thierry Klein, Alfredo López
Ann. Inst. H. Poincaré Probab. Statist. 53(1): 1-26 (February 2017). DOI: 10.1214/15-AIHP706

Abstract

We introduce the method of Geodesic Principal Component Analysis (GPCA) on the space of probability measures on the line, with finite second moment, endowed with the Wasserstein metric. We discuss the advantages of this approach, over a standard functional PCA of probability densities in the Hilbert space of square-integrable functions. We establish the consistency of the method by showing that the empirical GPCA converges to its population counterpart, as the sample size tends to infinity. A key property in the study of GPCA is the isometry between the Wasserstein space and a closed convex subset of the space of square-integrable functions, with respect to an appropriate measure. Therefore, we consider the general problem of PCA in a closed convex subset of a separable Hilbert space, which serves as basis for the analysis of GPCA and also has interest in its own right. We provide illustrative examples on simple statistical models, to show the benefits of this approach for data analysis. The method is also applied to a real dataset of population pyramids.

Nous introduisons la méthode d’Analyse en Composantes Principales Géodésiques (GPCA) dans l’espace des mesures de probabilités à support sur la droite réelle, admettant un moment d’ordre deux, et muni de la métrique de Wasserstein. Nous discutons des avantages de cette approche par rapport à une ACP fonctionnelle standard de densités de probabilités dans l’espace de Hilbert des fonctions de carrés intégrable. Nous établissons la consistence de cette méthode en montrant que la GPCA empirique converge vers sa version population lorsque la taille de l’échantillon tend vers l’infini. Une propriété clé dans l’étude de la GPCA est l’isométrie entre l’espace de Wasserstein et un sous-espace convexe fermé de l’ensemble des fonctions de carrés intégrable, par rapport à une mesure de référence appropriée. De ce fait, nous considérons le problème général de l’ACP dans un sous-ensemble convexe fermé d’un espace de Hilbert séparable, qui sert de base à l’analyse de la GPCA. Nous proposons différents exemples illustratifs à partir de modèles statistiques simples pour montrer les bénéfices de cette approche pour l’analyse de données. La méthode est également appliquée à un exemple réel sur les pyramides des âges.

Citation

Download Citation

Jérémie Bigot. Raúl Gouet. Thierry Klein. Alfredo López. "Geodesic PCA in the Wasserstein space by convex PCA." Ann. Inst. H. Poincaré Probab. Statist. 53 (1) 1 - 26, February 2017. https://doi.org/10.1214/15-AIHP706

Information

Received: 9 September 2013; Revised: 17 July 2015; Accepted: 31 July 2015; Published: February 2017
First available in Project Euclid: 8 February 2017

zbMATH: 1362.62065
MathSciNet: MR3606732
Digital Object Identifier: 10.1214/15-AIHP706

Subjects:
Primary: 62G05
Secondary: 62G20

Keywords: Fréchet mean , Functional data analysis , Geodesic and Convex Principal Component Analysis , Geodesic space , Inference for family of densities , Wasserstein space

Rights: Copyright © 2017 Institut Henri Poincaré

Vol.53 • No. 1 • February 2017
Back to Top