Título: Alineamiento de entidades con nombre usando distancia léxica
Autores: Borrego Ropero, Rafael
Díaz Madrigal, Víctor Jesús
Fecha: 2007-11-20
2007-11-20
2007-04
Publicador: RUA Docencia
Fuente:
Tipo: info:eu-repo/semantics/article
Tema: Alineamiento
Etiquetado de entidades
Edit distance
Corpora bilingüe
Alignment
Name entity recognition
Bilingual corpora
Descripción: En este artículo se presenta un sistema para asistir en el etiquetado de entidades con nombre y palabras semánticamente relevantes en corpora bilingüe. Además de las heurísticas usadas habitualmente para el alineamiento de corpora basadas en la frecuencia y la posición, se ha aprovechado el alto parecido lexicográfico entre palabras pertenecientes a lenguajes cercanos, como el español y el francés, para usar el algoritmo Edit Distance. Tras estudiar los resultados de estas técnicas, se ha realizado un sistema de votación ponderada que, a partir de una secuencia de palabras en un lenguaje, propone una secuencia equivalente en el otro idioma. Al ser técnicas que no se basan en un conocimiento previo de los lenguajes, pueden ser adaptadas para etiquetar dos lenguajes cualesquiera que tengan un tronco común.
In this article a system is presented to help in labelling named entities and meaningful words in bilingual parallel corpora. Besides the strategies used frequently in the alignment of corpora based on word frequency and position, it has been taken advantage of the high lexicographical similarity among words in nearby languages as Spanish and French to use the algorithm Edit Distance. After studying the results of these techniques, a system of voting has been defined that given a set of words in a language, an equivalent set in another language is proposed. As these techniques are not based on a previous knowledge of the languages, they can be used to label any pair of languages that share a common branch.
Este trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia (TIN 2004-07246-C03-03).
Idioma: Español

Artículos similares:

Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio
Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.
10