Nuevos métodos basados en núcleos para la representación eficiente de datos bajo suficiencia estadística

Inteligencia Computacional, Señales y Sistemas

En muchas aplicaciones en las que intentamos predecir una variable Y ∈ R a partir de un conjunto de variables predictoras X ∈ Rp, la reducción de dimensiones es una herramienta adecuada para ayudar a comprender los datos medidos y visualizar las relaciones existentes entre las variables. Consiste en obtener representaciones de los datos en un espacio de dimensión menor que p, con el objetivo de facilitar el análisis exploratorio y el posterior tratamiento estadístico. En este marco, la reducción suficiente de dimensiones (SDR) es una metodología supervisada que intenta proporcionar una solución rigurosa al propósito de reducir X preservando la información sobre Y , utilizando el concepto de suficiencia estadística. La idea central es encontrar una transformación R(X) de dimensión q ≤ p, de manera tal que el estudio de Y |R(X) sea equivalente al de Y |X pero con la ventaja de estar formulado en un espacio de dimensión posiblemente mucho menor. La metodología de SDR para problemas de aprendizaje supervisado fue introducida en [Li, 1991] y formalizada luego en términos de distribuciones condicionales en [Cook, 1998]. Las propuestas iniciales [Li, 1991; Cook and Weisberg, 1991; Li and Wang, 2007; Bura and Cook, 2001] se basaron en funciones de momentos de la distribución de X|Y , enfoque que se conoce como regresión inversa. Tales métodos proporcionaron típicamente transformaciones lineales de los predictores, con el objetivo de obtener el subespacio más pequeño capaz de preservar la información predictiva. Luego, dentro de este enfoque surgieron diferentes métodos basados en modelos de X|Y , explotando frecuentemente los beneficios de las familias exponenciales. El resultado más general para estas familias se presentó en [Bura et al., 2016], donde hallaron de forma exhaustiva una SDR minimal de X. Este resultado permitió ubicar la reducción de dimensiones supervisada de datos continuos y categóricos en el mismo marco conceptual. Además, se probó que la reducción optima no era lineal en los predictores sino en el estadístico suficiente de la familia exponencial elegida. En la práctica, una limitación de estos enfoques es que suele ser difícil evaluar si una suposición de modelado dada está respaldada por los datos. En esta tesis buscamos ampliar la aplicabilidad de SDR a problemas reales, avanzando en dos direcciones vinculadas por la aplicación de métodos basados en núcleos en espacios de Hilbert con núcleo reproductor (RKHS) [Aronszajn, 1950]. En primer lugar, obtenemos SDR basadas en modelos para una amplia clase de distribuciones denominada familias exponenciales basada en núcleos (KEF) [Canu and Smola, 2006; Fukumizu, 2009]. Estos modelos probabilísticos comparten muchas propiedades con la familia exponencial clásica, pero pueden representar una gama mucho más amplia de distribuciones de probabilidad. Además, establecemos conexiones formales con clasificadores de vectores soporte (SVM) [Boser et al., 1992], que son relevantes para obtener reducciones eficientes desde el punto de vista computacional y que, a la vez, proveen un fundamento teórico que respalda el uso de SVM con fines de reducción y visualización. En segundo lugar, abordamos el problema de reducción de dimensiones dentro del campo emergente de aprender con información lateral. Este campo se enfoca en un escenario predictivo especial donde, además de X, existe otra variable W que contiene información sobre Y pero solo puede ser utilizada durante el proceso de estimación debido a diversas razones. En consecuencia, surge la temática de reducción suficiente de dimensiones con información adicional, la cual apenas ha sido abordada en la literatura. En este contexto, nuestra contribución consiste en una metodología general que aprovecha el potencial de los métodos basados en núcleos para manejar eficazmente una W de alta dimensionalidad.


IBAÑEZ, Diego Isaías

04/03/2024

Tesis doctoral