Título: Análisis y diseño de un sistemas de conversión texto-voz para dispositivos celulares aplicadas a las personas con necesidades especiales
Autores: Morales Panamá, Jorge
Naula Pulla, Janneth
Silva Palacios, Daniel
Fecha: 2010-10-30
2010-10-30
2008-02
Publicador: Universidad Politécnica Salesiana
Fuente:
Tipo:
Tema: Sistemas de Conversión Texto-Voz
Dispositivos Celulares
Personas con Necesidades Especiales
Descripción: Este trabajo presenta un sistema de conversión texto voz para celular programado bajo plataforma J2ME el cual es capaz de generar de forma automática una secuencia de sonidos que produciría una persona al leer un texto cualquiera en voz alta, este permitirá generar en la gran mayoría de los casos cualquier enunciado en español, incluyendo la reproducción de números. Al ser la síntesis de voz la producción artificial del habla humana, el estudio incluyo un análisis general del aparato fonador, se realizo un breve estudio de los órganos implicados en la producción del habla obteniendo así una idea general de cómo se forma la voz y sus características principales. De igual manera se presento la arquitectura más completa para el desarrollo de estos conversores texto a voz y se han analizado aquí cada fase siempre aplicado al desarrollo de nuestro proyecto de conversor para celular. Se planteo tres fases para el desarrollo primeramente el procesamiento lingüístico, el procesamiento prosódico y la síntesis de voz. El procesado lingüístico se dedica fundamentalmente a determinar los sonidos que se van a producir y como producirlos para la lectura del texto de entrada. Para esto se realiza un preprocesado del texto y de tal manera que se quiten los diferentes números, símbolos y signos y se pueda realizar la selección de sonidos. Se analizo además el análisis y categorización gramatical, la formulación de un corpus, marcación de palabras, segmentación de frases, estructuración de diccionarios y análisis de los mismos. Se examino la manera en que se podrían establecer las pausas dentro de las oraciones en función de los acentos y su posición dentro de la oración. Para el procesado lingüístico la investigación incluyo un estudio teórico muy completo de FONÉTICA Y FONOLOGÍA específico para nuestro país (especialmente el habla de las personas que viven en la sierra del ecuador), punto fundamental para poder realizar la conversión de texto a voz, ya que los humanos reproducimos un texto en palabras, sin embargo el tratar que un conversor utilice palabras como unidad para la síntesis de voz es imposible esto debido a que no se podría almacenar en un móvil una base de datos con todas las palabras que incluye el léxico español, por lo tanto se debe realizar un división de menor nivel como es el caso de las silabas, ya que la cantidad de silabas es mucho menor que las palabras, en el proyecto se incluyo 164 silbas grabadas, las mismas que son reproducidas de acuerdo a la división silábica del texto de entrada en donde dicha división silábica se la logra en base a las reglas de fonética y fonología. Para el procesamiento prosódico se estudio sus principales parámetros como son las pausas y el ritmo. Además se reviso los procesos de estilización de patrones melódicos para las diferentes tipos de frases para el español. Se planteo los patrones melódicos en función de las frases definiendo conceptos como la curva melódica que genera la señal de la voz. Se investigo como se podría de esta manera asignar las curvas y frecuencias fundamentales a las frases. Como ya se mencionó anteriormente para la conversión de texto voz es necesaria la utilización de una base de datos de sonidos, ya que esta deberá contener el grupo de unidades digitalizadas pregrabadas, que posteriormente deberá emplear el sintetizador, para este primer avance del proyecto se utilizo una base de datos con voz femenina, la misma que puede ser obtenida en base a la grabación de frases, párrafos, palabras las cuales posteriormente con la utilización herramientas como “Speech Analyzer” deberán ser divididas en silabas, igual procedimiento se podrá seguir para la creación de una base de datos de voz masculina. El conversor texto a voz está construido en base a la metodología de desarrollo RUP (RATIONAL UNIFIED PROCESS), el cual junto con UML (Lenguaje Unificado de Modelado), constituye la metodología estándar más utilizada para el análisis, implementación y documentación de sistemas orientados a objetos, otra razón por la que se utilizo el RUP es porque se trata de un conjunto de metodologías que se adapta a las necesidades de cada usuario, en este caso nuestro equipo de desarrollo.
Idioma: Español

Artículos similares:

Estudio, diseño y construcción de una pata para un robot cuadrúpedo escalador por Galán Auquilla, Boris Antonio,Guillén López, Diego Esteban,Tello Crespo, Diego Fernando
10