Open Access
February 2008 Iterative feature selection in least square regression estimation
Pierre Alquier
Ann. Inst. H. Poincaré Probab. Statist. 44(1): 47-88 (February 2008). DOI: 10.1214/07-AIHP106

Abstract

This paper presents a new algorithm to perform regression estimation, in both the inductive and transductive setting. The estimator is defined as a linear combination of functions in a given dictionary. Coefficients of the combinations are computed sequentially using projection on some simple sets. These sets are defined as confidence regions provided by a deviation (PAC) inequality on an estimator in one-dimensional models. We prove that every projection the algorithm actually improves the performance of the estimator. We give all the estimators and results at first in the inductive case, where the algorithm requires the knowledge of the distribution of the design, and then in the transductive case, which seems a more natural application for this algorithm as we do not need particular information on the distribution of the design in this case. We finally show a connection with oracle inequalities, making us able to prove that the estimator reaches minimax rates of convergence in Sobolev and Besov spaces.

Cette article présente un nouvel algorithme d’estimation de régression, dans les contextes inductifs et transductifs. L’estimateur est défini par une combinaison linéaire de fonctions choisies dans un dictionnaire donné. Les coefficients de cette combinaison sont calculés par des projections successives sur des ensembles simples. Ces ensembles sont définis comme des régions de confiance données par une inégalité de déviation (ou inégalité PAC). On démontre en particulier que chaque projection au cours de l’algorithme améliore effectivement l’estimateur obtenu. On donne tout d’abord les résultats dans le contexte inductif, où l’algorithme nécessite la connaissance de la distribution du design, puis dans le contexte transductif, plus naturel ici puisque l’algorithme s’applique sans la connaissance de cette distribution. On établit finalement un lien avec les inégalités d’oracle, permettant de montrer que notre estimateur atteint les vitesses optimales dans les espaces de Sobolev et de Besov.

Citation

Download Citation

Pierre Alquier. "Iterative feature selection in least square regression estimation." Ann. Inst. H. Poincaré Probab. Statist. 44 (1) 47 - 88, February 2008. https://doi.org/10.1214/07-AIHP106

Information

Published: February 2008
First available in Project Euclid: 25 February 2008

zbMATH: 1206.62067
MathSciNet: MR2451571
Digital Object Identifier: 10.1214/07-AIHP106

Subjects:
Primary: 62G08
Secondary: 62G15 , 68T05

Keywords: Confidence regions , Regression estimation , Statistical learning , Support vector machines , Thresholding methods

Rights: Copyright © 2008 Institut Henri Poincaré

Vol.44 • No. 1 • February 2008
Back to Top