- Inicio
- Atrás
|
Título: |
Paraphrase extraction from validated question answering corpora in Spanish |
Autores: |
Herrera de la Cruz, Jesús Peñas Padilla, Anselmo Verdejo Maillo, María Felisa |
Fecha: |
2007-11-12 2007-11-12 2007-09 |
Publicador: |
RUA Docencia |
Fuente: |
|
Tipo: |
info:eu-repo/semantics/article |
Tema: |
Extracción de paráfrasis Corpus de Pregunta–Respuesta Definición de paráfrasis Paraphrase extraction Question Answering corpus Paraphrase definition |
Descripción: |
Partiendo del debate sobre la definición de paráfrasis, este trabajo intenta
clarificar lo que las personas consideran como paráfrasis. El experimento
realizado parte de una de las distintas campañas que generan cada año grandes
cantidades de datos validados, susceptibles de ser reutilizados con diferentes fines.
En este artículo se describe con detalle un método simple –fundamentado en reconocimiento
de patrones y operaciones de inserción y eliminación–, capaz de extraer
una importante cantidad de paráfrasis de corpora de Pregunta–Respuesta evaluados.
Se muestra además la evaluación realizada por expertos del corpus obtenido. Este
trabajo ha sido realizado para el español. Basing on the debate around the definition of paraphrase, this work
aims to empirically clarify what is considered a paraphrase by humans. The experiment
accomplished has its starting point in one of the several campaigns that
every year generate large amounts of validated textual data, which can be reused
for different purposes. This paper describes in detail a simple method –based on
pattern–matching and deletion and insertion operations–, able to extract a remarkable
amount of paraphrases from Question Answering assessed corpora. An assessment
of the corpus obtained was accomplished by experts, and an analysis of this
process is shown. This work has been developed for Spanish. This work
has been partially supported by the Spanish Ministry
of Science and Technology within the project R2D2–SyEMBRA (TIC–2003–07158–C04–02), and by the
Regional Government of Madrid under the auspices
of MAVIR Research Network (S–0505/TIC–0267). |
Idioma: |
Inglés |