February 2023 Trees, forests, and impurity-based variable importance in regression
Erwan Scornet
Author Affiliations +
Ann. Inst. H. Poincaré Probab. Statist. 59(1): 21-52 (February 2023). DOI: 10.1214/21-AIHP1240

Abstract

Tree ensemble methods such as random forests (Mach. Learn. 45 (2001) 5–32) are very popular to handle high-dimensional tabular data sets, notably because of their ability to detect sparse signals and their resulting good predictive accuracy. However, when machine learning is used for decision-making problems, settling for the best predictive procedures may not be reasonable since enlightened decisions require to understand the phenomena underlying the data, which is accessible only with an in-depth comprehension of the algorithm prediction process. Unfortunately, random forests are not intrinsically interpretable since their prediction results from averaging several hundreds of decision trees. A classic approach to gain knowledge on this so-called black-box algorithm is to compute variable importances, that are employed to assess the predictive impact of each input variable. Variable importances are then used to rank or select variables and thus play a great role in data analysis. Mean Decrease Impurity (MDI) is one of the two variable importance measures in random forests. However, there is no theoretical justification to use MDI: we do not even know what this indicator estimates. In this paper, we analyze MDI and prove that if input variables are independent and in absence of interactions, MDI provides a variance decomposition of the output, where the contribution of each variable is clearly identified. We also study models exhibiting dependence between input variables or interaction, for which the variable importance is intrinsically ill-defined.

Les méthodes d’ensemble basées sur les arbres de décision comme les forêts aléatoires (Mach. Learn. 45 (2001) 5–32) sont très prisées pour traiter des jeux de données tabulaires de grande dimension, notamment de par leur capacité à détecter des signaux parcimonieux et les bonnes performances prédictives qui en découlent. Cependant, lorsque l’apprentissage automatique est utilisé pour des problèmes d’aide à la décision, choisir la procédure à utiliser uniquement au regard de ses capacités prédictives n’est pas souhaitable. En effet, prendre une décision éclairée requiert de comprendre les phénomènes régissant le comportement des données, ce qui n’est possible qu’en ayant une compréhension précise du processus de prédiction de l’algorithme. Malheureusement, les forêts aléatoires ne sont pas intrinsèquement interprétables puisque leur prédiction résulte de l’agrégation de plusieurs centaines d’arbres de décision. Une approche classique pour améliorer la compréhension de ces “boîtes noires” est de calculer les indices d’importance de variables, qui sont employés pour quantifier l’influence de chaque variable d’entrée sur la sortie. Les mesures d’importance de variables sont ensuite utilisées pour classer ou sélectionner les variables et jouent ainsi un rôle prépondérant dans les analyses de données. Le MDI (Mean Decrease Impurity) est l’une des deux mesures d’importance calculées par les forêts aléatoires. Cependant, il n’y a aucune justification théorique à l’utilisation du MDI : nous ne savons toujours pas vers quelle quantité cet indicateur converge. Dans cet article, nous analysons le MDI et prouvons qu’en l’absence d’interactions entre les variables d’entrées, si celles-ci sont de plus indépendantes, alors le MDI fournit une décomposition de la variance de la sortie, où la contribution de chaque variable d’entrée est clairement identifiée. Nous étudions également des modèles contenant des interactions ou de la dépendance (entre les variables d’entrées), et montrons que le MDI est intrinsèquement mal défini pour ces modèles.

Acknowledgements

We greatly thank the associate editor and the two referees for their careful reading and numerous insightful comments that strongly helped to improve the quality and the readability of the manuscript.

Citation

Download Citation

Erwan Scornet. "Trees, forests, and impurity-based variable importance in regression." Ann. Inst. H. Poincaré Probab. Statist. 59 (1) 21 - 52, February 2023. https://doi.org/10.1214/21-AIHP1240

Information

Received: 9 November 2020; Revised: 15 September 2021; Accepted: 17 December 2021; Published: February 2023
First available in Project Euclid: 16 January 2023

MathSciNet: MR4534641
zbMATH: 07657642
Digital Object Identifier: 10.1214/21-AIHP1240

Subjects:
Primary: 62G08 , 62G20

Keywords: Mean Decrease Impurity , random forests , variable importance

Rights: Copyright © 2023 Association des Publications de l’Institut Henri Poincaré

Vol.59 • No. 1 • February 2023
Back to Top