Oumy NIASS, Abdou Kâ DIONGUE, Aissatou TOURÉ
Afr. J. Appl. Stat. 2 (1), 29-37, (December 2015) DOI: 10.16929/ajas/2015.1.29.73
KEYWORDS: missing data, imputation, Plasmodium falciparum, serology, 62P10
The treatment of missing data represents a recurrent problem in biology, in particular in the sero- epidemiological studies. Indeed, the most common method used to deal with missing data is to restrict the analysis to subjects having complete information for the set of variables of interest, which can lead to a drop-out and/or introduce some slants in the evaluation. The aim of this paper is to compare some missing data techniques and demonstrate that estimating missing data is sometimes more efficient than deleting them. Cross-sectional data was obtained by investigating the relationship between different malaria antibody responses against some antigens of P.falciparum in a sample of 300 children from eight villages in a rural area of Senegal (West Africa). The complete dataset was used to create incomplete dataset with percentages of missing values varying between 5% to 50%. Six methods were tested for dealing with missing values : Complete-case (CC) analysis so-called listwise deletion, mean substitution, k-nearest neighbours (knn), multiple imputation using the expectation-maximization (EM), predictive mean matching (pmm) and regression. They were applied to ten incomplete dataset for the same missing position. Root mean square errors (RMSE), mean absolute errors (MAE), p.value, multiple R-square, AIC and BIC criterions were used to compare these missing data approaches. The results demonstrate that multiple imputation using predictive mean matching (MI.pmm) and k-nearest neighbors (knn) methods were preferable to other missing data ones when the missing data percentage was great (larger than 5 percent). The listwise deletion approach produces the most inaccurate results. Based on these results, it seems that it is preferable to estimate missing values than to restrict the analysis to the subjects who have complete observations.
L'analyse des données manquantes est un problème récurrent dans les études biologiques en particulier dans les études séro-épidémiologiques. La méthode la plus couramment utilisée est celle dite de restriction qui consiste à restreindre l'analyse sur les individus ayant des informations complètes sur toutes les variables de la base de données. Cette méthode pourrait entrainer des pertes d'information ou introduire des erreurs sur l'évaluation des résultats. Le but de cette étude est de comparer des techniques d'évaluation des données manquantes et de démontrer que l'estimation des données manquantes est parfois plus efficient que la suppression. Nous utilisons des données transversales collectées sur 300 enfants vivant dans huit villages dans le but de mieux comprendre la relation entre les réponses d'anticorps dirigées contre les différents antigènes du Paludisme. La base complète a été utilisée pour créer des bases incomplètes avec des pourcentages de données manquantes variant de 5% à 50%. Les six méthodes suivantes : méthode des cas complète (CC: méthode par suppression), méthode de substitution par la moyenne, méthode des plus proches voisins (knn), méthode de l'imputation multiple par l'algorithme EM, la méthode du predictive mean matching (pmm) et méthode de la régression, ont été appliquées sur dix bases incomplètes sur le jeu de données décrit plus haut. Les indicateurs statistiques suivants ont été utilisés pour comparer ces différentes méthodes : erreur quadratique moyenne, erreur absolue moyenne, niveau de signification (p-values), sommes des erreurs quadratiques, critères AIC et BIC. Les résultats montrent que lorsque le pourcentage de données manquantes est supérieur à 5%, la méthode MI.pmm et celle des plus proches voisins donnent les meilleurs résultats. Lorsque le pourcentage de données manquantes est supérieur à 5%, la méthode MI.pmm et celle des plus proches voisins donnent les meilleurs résultats. La méthode par suppression s'est révélée comme étant la plus inappropriée. En se basant sur les résultats, il s’avère qu’il est préférable d’estimer les données manquantes que de les supprimer.