Nuevos Enfoques de Aprendizaje Profundo Robustos y con Restricciones para el Análisis de Imágenes
Inteligencia Computacional, Señales y Sistemas
Descripción
La rápida evolución de las tecnologías de captura y procesamiento de imágenes en las últimas décadas ha desencadenado un proceso de producción masiva de datos, transformando la manera en que percibimos y utilizamos la información visual. Este cambio se ha visto impulsado en gran medida por los avances en visión computacional y aprendizaje automático, destacando especialmente el éxito alcanzado por las redes neuronales convolucionales, que han superado las capacidades humanas en diversas aplicaciones. Sin embargo, la implementación de estas tecnologías sigue presentando desafíos en cuanto a la calidad de los resultados y a su capacidad para adaptarse a condiciones cambiantes. Esta tesis seenfoca en dos aspectos clave que apuntan a superar estos desafíos: desarrollar modelos que generen resultados realistas y sean robustos frente a cambios en el dominio de los datos. En la primera parte de esta tesis, nos enfocaremos en un problema conocido como registración deformable de imágenes, de fundamental importancia especialmente en el ámbito biomédico. Aquí, la tarea consiste en alinear dos imágenes, deformando una de ellas para que se asemeje a la otra. Cuando se trata de imágenes médicas, uno de los mayores desafíos es garantizar resultados anatómicamente plausibles, en el sentido de que las deformaciones aplicadas no resulten en imágenes irrealistas donde los órganos han sido completamente deformados. Aunque las redes convolucionales han mejorado la precisión y velocidad de la registración, el realismo sigue siendo un obstáculo. En esta investigación, se propone mejorar el realismo en modelos de registración por medio de la incorporación de restricciones anatómicas durante el proceso de optimización que penalicen deformaciones que no sean consistentes con la anatomía observada en las imágenes. Otro desafío crucial es la robustez frente a los cambios de dominio, donde los modelos de aprendizaje deben adaptarse a nuevas distribuciones de datos. En la segunda parte de esta tesis, se presenta un nuevo método de generalización de dominio en el contexto de la clasificación de imágenes con redes neuronales convolucionales, que busca mejorar la robustez de los modelos frente a cambios en la distribución. Se introduce una perspectiva para el tratamiento de los gradientes en problemas de generalización de dominio, en donde la diversidad de dominios puede generar inconsistencias en el gradiente. Se presentan estrategias de acuerdo basadas en cirugía de gradientes para reducir las discrepancias entre los dominios y mejorar la capacidad de generalización del modelo a dominios nuevos. Finalmente, el último capítulo de la tesis está abocado al estudio de la relación entre cambio de dominio y sesgo en modelos utilizados para el análisis de imágenes. Dicho sesgo suele manifestarse como un rendimiento sistemáticamente dispar en distintas poblaciones. En particular, se abordan problemas con imágenes de rostros humanos e imágenes médicas, donde el cambio de dominio está relacionado a distintos grupos demográficos, y el objetivo es poder determinar cuando un modelo será propenso a sesgarse frente a grupos demográficos definidos por algún atributo en particular, como el sexo o la edad. Se aborda el escenario donde hay cambios de dominio en una población de interés y nose tienen las salidas correctas del modelo, lo que dificulta evaluar si un modelo muestra sesgos frente a determinados atributos demográficos. Para enfrentar este problema, se proponen enfoques no supervisados que evalúan conjuntos de modelos entrenados en diferentes grupos demográficos y miden las inconsistencias entre sus salidas. Esto da como resultado un índice que sirve como indicador de posibles sesgos en nuevas poblaciones de interés.