Annales de l'Institut Henri Poincaré, Probabilités et Statistiques
- Ann. Inst. H. Poincaré Probab. Statist.
- Volume 50, Number 3 (2014), 1092-1119.
Estimator selection in the Gaussian setting
Yannick Baraud, Christophe Giraud, and Sylvie Huet
Abstract
We consider the problem of estimating the mean $f$ of a Gaussian vector $Y$ with independent components of common unknown variance $\sigma^{2}$. Our estimation procedure is based on estimator selection. More precisely, we start with an arbitrary and possibly infinite collection $\mathbb{F}$ of estimators of $f$ based on $Y$ and, with the same data $Y$, aim at selecting an estimator among $\mathbb{F}$ with the smallest Euclidean risk. No assumptions on the estimators are made and their dependencies with respect to $Y$ may be unknown. We establish a non-asymptotic risk bound for the selected estimator and derive oracle-type inequalities when $\mathbb{F}$ consists of linear estimators. As particular cases, our approach allows to handle the problems of aggregation, model selection as well as those of choosing a window and a kernel for estimating a regression function, or tuning the parameter involved in a penalized criterion. In all theses cases but aggregation, the method can be easily implemented. For illustration, we carry out two simulation studies. One aims at comparing our procedure to cross-validation for choosing a tuning parameter. The other shows how to implement our approach to solve the problem of variable selection in practice.
Résumé
Nous présentons une nouvelle procédure de sélection d’estimateurs pour estimer l’espérance $f$ d’un vecteur $Y$ de $n$ variables gaussiennes indépendantes dont la variance est inconnue. Nous proposons de choisir un estimateur de $f$, dont l’objectif est de minimiser le risque $l_{2}$, dans une collection arbitraire et éventuellement infinie $\mathbb{F}$ d’estimateurs. La procédure de choix ainsi que la collection $\mathbb{F}$ ne dépendent que des seules observations $Y$. Nous calculons une borne de risque, non asymptotique, ne nécessitant aucune hypothèse sur les estimateurs dans $\mathbb{F}$, ni la connaissance de leur dépendance en $Y$. Nous calculons des inégalités de type “oracle” quand $\mathbb{F}$ est une collection d’estimateurs linéaires. Nous considérons plusieurs cas particuliers : estimation par aggrégation, estimation par sélection de modèles, choix d’une fenêtre et du paramètre de lissage en régression fonctionnelle, choix du paramètre de régularisation dans un critère pénalisé. Pour tous ces cas particuliers, sauf pour les méthodes d’aggrégation, la méthode est très facile à programmer. A titre d’illustration nous montrons des résultats de simulations avec deux objectifs : comparer notre méthode à la procédure de cross-validation, montrer comment la mettre en œuvre dans le cadre de la sélection de variables.
Article information
Source
Ann. Inst. H. Poincaré Probab. Statist., Volume 50, Number 3 (2014), 1092-1119.
Dates
First available in Project Euclid: 20 June 2014
Permanent link to this document
https://projecteuclid.org/euclid.aihp/1403277009
Digital Object Identifier
doi:10.1214/13-AIHP539
Mathematical Reviews number (MathSciNet)
MR3224300
Zentralblatt MATH identifier
1298.62113
Subjects
Primary: 62J05: Linear regression 62J07: Ridge regression; shrinkage estimators 62G08: Nonparametric regression
Keywords
Estimator selection Model selection Variable selection Linear estimator Kernel estimator Ridge regression Lasso Elastic net Random forest PLS1 regression
Citation
Baraud, Yannick; Giraud, Christophe; Huet, Sylvie. Estimator selection in the Gaussian setting. Ann. Inst. H. Poincaré Probab. Statist. 50 (2014), no. 3, 1092--1119. doi:10.1214/13-AIHP539. https://projecteuclid.org/euclid.aihp/1403277009

