Título: Paraphrase extraction from validated question answering corpora in Spanish
Autores: Herrera de la Cruz, Jesús
Peñas Padilla, Anselmo
Verdejo Maillo, María Felisa
Fecha: 2007-11-12
2007-11-12
2007-09
Publicador: RUA Docencia
Fuente:
Tipo: info:eu-repo/semantics/article
Tema: Extracción de paráfrasis
Corpus de Pregunta–Respuesta
Definición de paráfrasis
Paraphrase extraction
Question Answering corpus
Paraphrase definition
Descripción: Partiendo del debate sobre la definición de paráfrasis, este trabajo intenta clarificar lo que las personas consideran como paráfrasis. El experimento realizado parte de una de las distintas campañas que generan cada año grandes cantidades de datos validados, susceptibles de ser reutilizados con diferentes fines. En este artículo se describe con detalle un método simple –fundamentado en reconocimiento de patrones y operaciones de inserción y eliminación–, capaz de extraer una importante cantidad de paráfrasis de corpora de Pregunta–Respuesta evaluados. Se muestra además la evaluación realizada por expertos del corpus obtenido. Este trabajo ha sido realizado para el español.
Basing on the debate around the definition of paraphrase, this work aims to empirically clarify what is considered a paraphrase by humans. The experiment accomplished has its starting point in one of the several campaigns that every year generate large amounts of validated textual data, which can be reused for different purposes. This paper describes in detail a simple method –based on pattern–matching and deletion and insertion operations–, able to extract a remarkable amount of paraphrases from Question Answering assessed corpora. An assessment of the corpus obtained was accomplished by experts, and an analysis of this process is shown. This work has been developed for Spanish.
This work has been partially supported by the Spanish Ministry of Science and Technology within the project R2D2–SyEMBRA (TIC–2003–07158–C04–02), and by the Regional Government of Madrid under the auspices of MAVIR Research Network (S–0505/TIC–0267).
Idioma: Inglés

Artículos similares:

Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio
Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.
10