July 2023 Performance Evaluation of Resampling Strategies in Decision Tree-Based Ensemble Machine Learning Algorithms for Overdispersed Count Data Modelling
Ciza Arsène Mushagalusa, Anandé Balarmain Fandohan, Romain Glèlè Kakaï
Afr. J. Appl. Stat. 10(2): 1469-1502 (July 2023). DOI: 10.16929/ajas/2023.1469.278

Abstract

This study aimed to evaluate the performance of resampling strategies in ensemble tree ML algorithms such as random forest and conditional inference forests in modelling overdispersed outcomes, considering the complexity of the relationship between predictors and the outcome, overdispersion level, predictor type and sample size. We used simulated data and a case study modelling tick (Rhipicephalus appendiculatus) abundance on pastures. Results show that the choice of resampling approach affects learning algorithms' performances differently and a resampling method may be more or less effective for some datasets than for others.

Cette étude visait à évaluer les performances des méthodes de rééchantillonnage pour les algorithmes d'apprentissage automatique basés sur un d'ensemble d'arbres dans la modélisation des variables surdispersées, en tenant compte de la complexité de la relation entre les prédicteurs et la variable dépendante, du degré de surdispersion, du type de prédicteur et de la taille de l'échantillon. Nous avons utilisé des données simulées et une étude de cas modélisant l'abondance du tique (Rhipicephalus appendiculatus) sur les pâturages naturels au Sud Kivu, en RD Congo. Les résultats ont montré que le choix de l'approche de rééchantillonnage affecte différemment les performances des algorithmes d'apprentissage et qu'une méthode de rééchantillonnage peut être plus ou moins efficace pour certains ensembles de données que pour d'autres.

Citation

Download Citation

Ciza Arsène Mushagalusa. Anandé Balarmain Fandohan. Romain Glèlè Kakaï. "Performance Evaluation of Resampling Strategies in Decision Tree-Based Ensemble Machine Learning Algorithms for Overdispersed Count Data Modelling." Afr. J. Appl. Stat. 10 (2) 1469 - 1502, July 2023. https://doi.org/10.16929/ajas/2023.1469.278

Information

Published: July 2023
First available in Project Euclid: 25 June 2024

Digital Object Identifier: 10.16929/ajas/2023.1469.278

Subjects:
Primary: 62F40
Secondary: 62G09 , 68T05 , 68U20 , 68W05

Keywords: Bootstrapping , conditional inference forests , cross-validation , discrete data , overdispersion , Random forest

Rights: Copyright © 2023 The Statistics and Probability African Society

JOURNAL ARTICLE
34 PAGES

This article is only available to subscribers.
It is not available for individual sale.
+ SAVE TO MY LIBRARY

Vol.10 • No. 2 • July 2023
Back to Top