Desarrollo de métodos robustos y fisiológicamente inspirados para el filtrado inverso de la voz
Inteligencia Computacional, Señales y Sistemas
Descripción
El flujo glótico, la principal fuente acústica en la fonación humana, resulta de las complejas interacciones biomecánicas en la glotis. Por lo tanto, proporciona información sobre la dinámica de las cuerdas vocales. El filtrado inverso de la voz permite la estimación no invasiva del flujo glótico a partir de la señal de voz. Esto se logra eliminando primero la contribución del tracto vocal mediante el ajuste de un filtro digital, obteniéndose así la función glótica, una señal que contiene información sobre el flujo glótico y la radiación de los labios. Luego, al eliminar las modulaciones debidas a la radiación de los labios, se obtiene el flujo glótico. En general, la precisión de la estimación depende de cancelar correctamente las contribuciones de estas estructuras. Esta tesis introduce nuevos métodos para mejorar los dos pasos fundamentales del filtrado inverso de la voz. En primer lugar, se examinan los problemas asociados con el uso del método de predicción lineal para ajustar el filtro del tracto vocal. A partir de este análisis, se proponen dos estrategias de predicción lineal ponderada que aplican atenuación Gaussiana para reducir los errores en el ajuste del filtro debidos a la influencia adversa de las muestras ubicadas en los instantes de cierre glóticos. Las estrategias propuestas extienden el método de predicción lineal con atenuación Gaussiana, permitiendo un análisis adaptado a la periodicidad de la señal y una ponderación de fase casi cerrada, lo que resulta en un mejor desempeño para aplicaciones de filtrado inverso. Adicionalmente, se desarrolló un método de predicción lineal basado en el criterio de máxima correntropía, resultando en una estrategia robusta para filtrado inverso. Este método implementa un esquema de ponderación que enfatiza automáticamente las muestras de la señal de voz en la fase cerrada, las cuales contienen información más precisa del tracto vocal, mientras atenúa simultáneamente las muestras alrededor de los instantes de cierre glóticos que generan errores. Esto proporciona una ventaja significativa sobre los métodos que requieren conocer a priori los instantes glóticos. Finalmente, se propuso un modelo adaptativo no armónico para mejorar la estimación del flujo glótico a partir de la función glótica. En base a esta formulación, se desarrolló una versión regularizada del modelo que permite obtener estimaciones con una fase cerrada plana, lo cual es una característica fisiológicamente relevante de la forma de onda del flujo glótico. Este enfoque reduce las distorsiones de baja frecuencia causadas por errores que surgen durante el filtrado inverso. En conjunto, los métodos desarrollados en esta tesis constituyen contribuciones significativas al campo del filtrado inverso de la voz y complementan los métodos establecidos. Estas contribuciones mejoran las herramientas disponibles para el análisis de la fonación y sientan las bases para futuras investigaciones en esta temática.