- Inicio
- Atrás
|
Título: |
Inter-phone and inter-word distances for confusability prediction in speech recognition |
Autores: |
Anguita Ortega, Jan Hernando Pericas, Francisco Javier |
Fecha: |
2007-08-31 2007-08-31 2004-09 |
Publicador: |
RUA Docencia |
Fuente: |
|
Tipo: |
info:eu-repo/semantics/article |
Tema: |
Distancia entre fonemas Distancia entre palabras Predicción Confusión Inter-phone distance Inter-word distance Prediction Confusability |
Descripción: |
En este trabajo se investigan nuevas distancias entre fonemas y entre palabras que se
han usado para predecir si dos palabras del vocabulario de un sistema de reconocimiento del
habla se van a confundir o no. La distancia entre palabras se calcula a partir de un alineamiento
entre las transcripciones fonéticas de las palabras sumando las distancias entre los fonemas
alineados. Se propone una nueva solución donde la distancia entre fonemas usada para alinear
no es la misma que la que se usa para calcular la distancia entre palabras. La primera está
basada en conocimiento fonético. La segunda se obtiene a partir de los modelos acústicos de los
fonemas con una nueva fórmula que proponemos. También se han usado dos tipos de
alineamientos: con o sin inserciones y omisiones. Para evaluar la predicción se han calculado las
tasas de falso rechazo y falsa aceptación y se ha obtenido un Equal Error Rate de menos del 2%. In this work we investigate new inter-phone and inter-word distances and we apply
them to predict if two words of the lexicon of an Automatic Speech Recognition (ASR) system
are likely to be confused. The inter-word distance is calculated from an alignment between the
phonetic transcriptions of the words by adding the distances between the aligned phones. We
bring a new solution in which the inter-phone distance used for computing the inter-word
distance is not the same used to compute the phonetic alignment. The first one is calculated
between the acoustic models of the phones with a new formula that we propose. The second one
is based on phonetic knowledge. We also use two different kinds of alignments: either with or
without insertions and deletions. In order to evaluate the performances, we introduce a classical
false acceptance/false rejection framework and the prediction Equal Error Rate (EER) was
measured to be less than 2%. |
Idioma: |
Inglés |