Open Access
January 2018 Classification of the Gambian Online Newspapers by keywords : an unsupervized study and Data Streaming Platform
Gane Samb LO, Babanding SANYANG, Saidou MS BADJIE
Afr. J. Appl. Stat. 5(1): 377-401 (January 2018). DOI: 10.16929/ajas/377.221


In this paper, we begin a regional project of knowledge retrieval process from African online newspapers. We first focus on the Gambian context and undertake an unsupervized learning process from such journals. With the help of appropriate and specifically designed computer packages, we studied the keywords that likely discriminate the categories of articles (agriculture, health, politics, etc). We found 681 words that would efficiently help building a very efficient classifier of categories of articles and that would serve building a metric from which regular classification or Big data classification methods are operated. The success of the study is a pretext to set a Data stream platform of regions of the World, Africa for example.

Dans cet article, nous commençons un projet régional de processus de recherche de connaissances à partir de journaux en ligne africains. Nous nous concentrons d'abord sur le contexte gambien et entreprenons un processus d'apprentissage non supervisé à partir de ces revues. Avec l'aide de logiciels appropriés et spécialement conçus, nous étudié les mots-clés qui discriminent probablement les catégories d'articles (agriculture, santé, politique, etc.). Nous avons trouvé 681 mots qui pourraient aider efficacement à construire un classificateur très efficace de catégories d'articles et qui servirait à construire une métrique à partir de laquelle des méthodes classification régulière ou de classification de données massives (Big Data) sont utilisées. Le succès de l'étude est un prétexte pour établir une plate-forme de flux de données des régions du monde, Afrique par exemple., pour la détection continues des mots-clés et de leur adaption.


Download Citation

Gane Samb LO. Babanding SANYANG. Saidou MS BADJIE. "Classification of the Gambian Online Newspapers by keywords : an unsupervized study and Data Streaming Platform." Afr. J. Appl. Stat. 5 (1) 377 - 401, January 2018.


Published: January 2018
First available in Project Euclid: 16 May 2019

Digital Object Identifier: 10.16929/ajas/377.221

Primary: 60-04 , 60-08 , 62-07 , 62H30

Keywords: computer packages , data-mining , keywords and patterns , knowledge retrieval , Statistical learning , unsupervized learning process , web-mining

Rights: Copyright © 2018 The Statistics and Probability African Society

Vol.5 • No. 1 • January 2018
Back to Top