May 2024 Log determinant of large correlation matrices under infinite fourth moment
Johannes Heiny, Nestor Parolya
Author Affiliations +
Ann. Inst. H. Poincaré Probab. Statist. 60(2): 1048-1076 (May 2024). DOI: 10.1214/23-AIHP1368

Abstract

In this paper, we show the central limit theorem for the logarithmic determinant of the sample correlation matrix R constructed from the (p×n)-dimensional data matrix X containing independent and identically distributed random entries with mean zero, variance one and infinite fourth moments. Precisely, we show that for p/nγ(0,1) as n,p the logarithmic law

logdetR(pn+12)log(1p/n)+pp/n2log(1p/n)2p/ndN(0,1)

is still valid if the entries of the data matrix X follow a symmetric distribution with a regularly varying tail of index α(3,4). The latter assumptions seem to be crucial, which is justified by the simulations: if the entries of X have the infinite absolute third moment and/or their distribution is not symmetric, the logarithmic law is not valid anymore. The derived results highlight that the logarithmic determinant of the sample correlation matrix is a very stable and flexible statistic for heavy-tailed big data and open a novel way of analysis of high-dimensional random matrices with self-normalized entries.

Dans cet article, nous démontrons le théorème de la limite centrale pour le déterminant logarithmique d’une matrice de corrélation R construite à partir d’une matrice de données X de taille (p×n) contenant des entrées indépendantes d’espérance 0, variance 1 et quatrième moment infini. Plus précisément, nous démontrons que dans le régime p/nγ(0,1) quand n,p la loi logarithmique

logdetR(pn+12)log(1p/n)+pp/n2log(1p/n)2p/ndN(0,1)

est toujours valable si les entrées de la matrice de données X suivent une distribution symétrique avec une queue à variation régulière d’indice α(3,4). Ces dernières conditions semblent être cruciales, ce qui est justifié par les simulations : si les entrées de X n’ont pas de troisième moment et/ou si leur distribution n’est pas symétrique, la loi logarithmique n’est plus valable. Les résultats obtenus mettent en évidence que le déterminant logarithmique d’une matrice de corrélation est une statistique très stable et flexible pour les données massives à queue lourde et ouvrent une nouvelle voie pour analyser les grandes matrices aléatoires avec entrées auto-normalisées.

Citation

Download Citation

Johannes Heiny. Nestor Parolya. "Log determinant of large correlation matrices under infinite fourth moment." Ann. Inst. H. Poincaré Probab. Statist. 60 (2) 1048 - 1076, May 2024. https://doi.org/10.1214/23-AIHP1368

Information

Received: 19 January 2022; Revised: 10 January 2023; Accepted: 14 January 2023; Published: May 2024
First available in Project Euclid: 11 June 2024

Digital Object Identifier: 10.1214/23-AIHP1368

Subjects:
Primary: 60B20
Secondary: 60F05 , 60G10 , 60G57 , 60G70

Keywords: heavy tails , Infinite fourth moment , Logarithmic determinant , Random matrix theory , sample correlation matrix

Rights: Copyright © 2024 Association des Publications de l’Institut Henri Poincaré

Vol.60 • No. 2 • May 2024
Back to Top