Abstract
Given n samples from a population of individuals belonging to different types with unknown proportions, how do we estimate the probability of discovering a new type at the th draw? This is a classical problem in statistics, commonly referred to as the missing mass estimation problem. Recent results have shown: (i) the impossibility of estimating the missing mass without imposing further assumptions on type’s proportions; (ii) the consistency of the Good–Turing estimator of the missing mass under the assumption that the tail of type’s proportions decays to zero as a regularly varying function with parameter ; (iii) the rate of convergence for the Good–Turing estimator under the class of regularly varying P. In this paper we introduce an alternative, and remarkably shorter, proof of the impossibility of a distribution-free estimation of the missing mass. Beside being of independent interest, our alternative proof suggests a natural approach to strengthen, and expand, the recent results on the rate of convergence of the Good–Turing estimator under regularly varying type’s proportions. In particular, we show that the convergence rate is the best rate that any estimator can achieve, up to a slowly varying function. Furthermore, we prove that a lower bound to the minimax estimation risk must scale at least as , which leads to conjecture that the Good–Turing estimator is a rate optimal minimax estimator under regularly varying type proportions.
Etant donné un échantillon de taille n dans une population d’individus appartenant à différents types dont les proportions sont inconnues, comment estimer la probabilité de découvrir un nouveau type au -ième tirage ? C’est un problème classique en statistique, souvent appelé le problème de l’estimation de la masse manquante. Des résultats récents on montré : (i) l’impossibilité d’estimer la masse manquante sans imposer des hypothèses sur les proportions des types ; (ii) la convergence de l’estimateur de la masse manquante de Good–Turing sous l’hypothèse que la queue des proportions des types décroît vers 0 comme une fonction régulière de paramètre ; (iii) la vitesse de convergence pour l’estimateur de Good–Turing pour la classe de probabilités à variation régulière . Dans cet article, nous proposons une preuve alternative, et remarquablement plus courte, de l’impossibilité de l’estimation de la masse manquante sans hypothèse sur la distribution. Au delà de son intérêt propre, cette preuve alternative suggère une approche naturelle pour améliorer et étendre les résultats de vitesse de convergence de l’estimateur de Good–Turing sous l’hypothèse de proportions à variation régulière . En particulier, nous montrons que la vitesse de convergence est la meilleure que peut atteindre un estimateur, à une fonction à variation bornée près. De plus, nous montrons qu’une borne inférieure à l’estimation du risque minimax est au moins d’échelle , ce qui amène à la conjecture que l’estimateur de Good–Turing est l’estimateur minimax de vitesse optimale sous une hypothèse de proportions à variation régulière.
Acknowledgements
The authors thank an anonymous Referee and an Associate Editor for all her/his comments, corrections, and suggestions which remarkably improved the original version of the paper. Federico Camerlenghi and Stefano Favaro received funding from the European Research Council (ERC) under the European Union’s Horizon 2020 research and innovation programme under grant agreement No 817257. Federico Camerlenghi and Stefano Favaro gratefully acknowledge the financial support from the Italian Ministry of Education, University and Research (MIUR), “Dipartimenti di Eccellenza” grant 2018-2022.
Citation
Fadhel Ayed. Marco Battiston. Federico Camerlenghi. Stefano Favaro. "On consistent and rate optimal estimation of the missing mass." Ann. Inst. H. Poincaré Probab. Statist. 57 (3) 1476 - 1494, August 2021. https://doi.org/10.1214/20-AIHP1126
Information