Título: Clasificación y generalización de formas verbales en sistemas de traducción estocástica
Autores: Gispert Ramis, Adrià de
Mariño Acebal, José Bernardo
Crego Clemente, Josep María
Fecha: 2007-08-27
2007-08-27
2005-09
Publicador: RUA Docencia
Fuente:
Tipo: info:eu-repo/semantics/article
Tema: Traducción estocástica
Conocimiento lingüístico
Formas verbales
Morfología
Stochastic machine translation
Linguistic knowledge
Verb forms
Morphology
Descripción: En esta comunicación se propone un método para incorporar conocimiento lingüístico relativo a las formas verbales en sistemas estocásticos de traducción. Por medio de una clasificación basada en conocimiento de dichas formas, y de su sustitución por el lema del verbo principal durante la fase de entrenamiento, se consigue un mejor alineado en palabras, cuya consecuencia es una mejor estimación del modelo de traducción. Además, a partir de las formas verbales observadas en el entrenamiento es posible generalizar con éxito y proporcionar traducciones a nuevas formas no vistas anteriormente. El método propuesto es evaluado en una tarea de traducción del inglés al español de dominio restringido, donde se alcanza una mejora significativa.
This paper introduces a method to incorporate linguistic knowledge regarding verb forms into an stochastic machine translation model. By means of a rule-based classification of these forms, and by substituting them by the base form of the head verb during the training stage, we achieve a better statistical word alignment, which leads to a better estimate of the translation model. Furthermore, a successful generalization strategy can be devised to produce a new translation for unseen verb forms from the translations of seen verb forms. An evaluation of this method in an English to Spanish limited-domain translation task is presented, producing a significant performance improvement.
Este trabajo ha sido financiado parcialmente por la CICYT a través del proyecto TIC2002-04447-C02 (ALIADO), la Unión Europea mediante el proyecto FP6-506738 (TC-STAR), y el "Departament de Universitats, Recerca i Societat de la Informació" de la Generalitat de Catalunya.
Idioma: Español

Artículos similares:

Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio
Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.
10