Comparación de técnicas de clasificación de múltiples anotadores para la valoración automática de la calidad de voz
Comparación de técnicas de clasificación de múltiples anotadores para la valoración automática de la calidad de voz
Portada
Código QR
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor/Compilador
Editores
Pereira : Universidad Tecnológica de Pereira
Tipo de Material
Fecha
2014
Cita bibliográfica
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen
Actualmente se han hecho más comunes los problemas que afectan la voz. La medicina ha desarrollado técnicas que evalúan la calidad de voz, con el propósito de detectar patologías asociadas al aparato fonador, específicamente aquellas que afectan las cuerdas vocales. Entre las técnicas desarrolladas se identifican principalmente dos enfoques: el análisis acústico y el análisis perceptivo. Estas técnicas presentan algunos inconvenientes: para el análisis acústico se debe contar con las etiquetas verdad as para definir los patrones de comparación, por otro lado el análisis perceptivo presenta subjetividad en las valoraciones. Estos problemas pueden ser minimizados usando técnicas de aprendizaje supervisado con múltiples anotaciones. En este sentido, se expone el desarrollo de un sistema de valoración automática de la calidad de voz bajo el protocolo GRBAS y basado en técnicas de aprendizaje de máquina para múltiples anotadores. En la etapa de aprendizaje automático para múltiples anotadores, se comparan dos tipos de técnicas, una de ellas basada en Procesos Gaussianos [1], la otra se basa en un modelo de Regresión Logística Multiclase que tiene en cuenta la sensibilidad y especificidad de cada anotador [2]. Las señales de voz se caracterizan usando los coeficientes cepstrales en la escala de frecuencias Mel. La comparación de las técnicas de clasificación nombradas se efectúa en términos de precisión y de las curvas ROC. Los resultados muestran que el clasificador con mejor desempeño para tareas de valoración de la calidad de voz es aquel basado en Procesos Gaussianos, el cual obtuvo un AUC promedio de 0,59 mientras que el clasificador basado en regresión logística multiclase alcanzó un AUC promedio de 0,55. Además los resultados de los experimentos indican que el clasificador de múltiples anotadores basado en Procesos Gaussianos obtuvo mejor rendimiento que los clasificadores típicos que usan “majority voting” para calcular la etiqueta verdadera a partir de las anotaciones.