Título: Speech based machine aided human translation for a document translation task
Autores: Reddy, Aarthi
Fecha: 2012
Publicador: McGill University - MCGILL
Fuente:
Tipo: Electronic Thesis or Dissertation
Tema: Engineering - Electronics and Electrical
Descripción: Translating documents into multiple languages represents an extremely large expensefor businesses, governments, and international agencies. In Canada, for example, it isa requirement that all ocial documents exist in both ocial languages, French andEnglish. This has produced a large translation industry employing a large number ofskilled professional translators.It is well known that the standards posed on the quality of translations for businessand government documents are far too high to apply existing automatic machinetranslation technology to the document translation task. A large number of tools forincreasing the eciency of human translators at various stages of their work ow havebecome commercially available to translation bureaus. These human translators maydirectly enter translated text, dictate their translations so they may be automaticallytranscribed, or post-edit rst draft translations produced by an automatic machinetranslation system. The work in this thesis is concerned with a machine aided humantranslation(MAHT) scenario where a human translator dictates translations ofa source language document. Automatic techniques are developed for improving thequality of the transcriptions obtained from these dictated translations by simultaneouslyincorporating knowledge from the source language text and the target languagespeech.The main contributions of this thesis are as follows. First, we describe novelalgorithms that provide ecient and accurate transcriptions of dictations providedby the human translator. We show that by integrating information extracted fromthe source language document with statistical models used in the automatic speechrecognition system, a more accurate transcription of the dictations can be obtained.Second, we use key information from the source language document like named entitytagged words and use acoustic, language and phonetic information to ensure that thatinformation exists in the translated document as well. Third, we describe a systemthat is specic to document translation. The document translation task domainaddressed here can be distinguished from tasks addressed in most previous MAHTresearch which has been focused on translating isolated sentences or phrases. Fourth,we created a new corpus, specically for use in this thesis. This corpus was collected atMcGill from professional translators dictating their translations and has been essentialfor characterizing the issues associated with the dictation-based MAHT task domain.
La traduction de documents dans plusieurs langues represente des coûts eleves pour les entreprises, les gouvernements et les rmes internationales. Au Canada par exemple, il est obligatoire que tous les documents ociels soient rediges en Anglais et en Francais. Cette politique a force l'industrie de traduction a embaucher un grand nombre de traducteurs professionnels. Il est de notoriete que les normes imposees pour la traduction de documents administratifs rendent la tâche des machines de traduction trop ardue. Un grand nombre d'outils sont commercialement disponibles pour ameliorer l'ecacite des traducteurs humains a dierents nivaux de leur travail. Les employes des bureaux de traduction peuvent saisir directement le texte traduit, dicter leur traduction an qu'elle puisse être transcrite de facon authentique, ou bien corriger les premieres versions fournies par les machines de traduction automatique. Le travail de cette these porte sur la traduction humaine assistee par ordinateur (MAHT), ou un traducteur humain dicte une premiere traduction d'un document. Des algorithmes sont implementes pour ameliorer la qualite de traduction de la version dictee en integrant simultanement des informations sur la langue source et sur la langue ciblee. Cette these contribue aux aspects suivants. Premierement, elle presente de nouveaux algorithmes qui ameliorent les traductions dictees. En integrant les informations extraites du document de la langue source avec des modeles statistiques utilises dans la reconnaissance vocale, de meilleures traductions sont obtenues. Deuxiemement, les informations cles telles que les mots identies comme etant des entites nommees, sont recueillies par le document de la langue source grâce aux informations acoustiques, linguistiques, et phonetiques. De cette facon, on s'assure que ces mêmes informations se retrouvent dans le chier traduit. Troisiemement, le systeme specique a la traduction de document est presente et il se demarque du travail fait avec MAHT et CAT, ou l'objectif est uniquement la traduction de phrases ou expressions. Finalement, nous avons cree un nouveau corpus dedie aux applications de cette these. Cet ensemble de documents a ete collecte et estampe a l'Universite McGill et a permis de mener les experiences a bien. Il met en evidence des obstacles qui n'ont pas ete encore rencontres durant les precedentes recherches dans ce domaine, comme l'utilisation de mots de remplissage, les repetitions, et autres erreurs commises par les traducteurs.
Idioma: en