Descripción: |
En este artículo exploramos diversas opciones para la adaptación a tarea en
reconocimiento de habla y las comparamos con desarrollar el sistema nuevo desde cero.
Comparamos adaptación a tarea mediante MAP y MLLR, y ambas en serie, en dos
reconocedores de habla para tareas de control del tráfico aéreo, una para habla espontánea y la
otra para una interfaz de comandos. Vamos a mostrar cómo MLLR puede incluso superar a
MAP cuando se utilizan un número elevado de transformadas, cómo MLLR seguido de MAP es
la mejor opción, y también vamos a proporcionar varias pistas de cuáles son las mejores
opciones para la creación de los árboles de clases de regresión utilizados en MLLR. En todos
los casos, demostramos la efectividad de la adaptación conjunta de medias y varianzas. Para la
interfaz de comandos, también incluimos la comparación entre MAP y MLLR para adaptación a
locutor utilizando una cantidad variable de datos de adaptación. In this paper we explore several options for cross-task adaptation in speech
recognition and compare them to develop the new system from scratch. We compare cross-task
MAP and MLLR adaptation, and both of them together, in two speech recognizers for air traffic
control tasks, one for spontaneous speech and the other one for a command interface. We show
how MLLR can even outperform MAP when a big number of transforms is used, how MLLR
followed by MAP is the best option, and we also provide some hints of which are the best
options to create the MLLR regression class trees. In all cases, we show the effectiveness of
means and variance adaptation. For the command interface, we also include the comparison
between MAP and MLLR for speaker adaptation using a variable amount of adaptation data. This work has been partially funded by the
Spanish Ministry of Science and Technology
under contracts DPI2001-3652-C02-02
(URBANO-IVANHOE), TIC2003-09192-C11-07 (MIDAS-INAUDITO), and DPI2004-07908-C02-02 (ROBINT). |