Descripción: |
En este trabajo se describe el desarrollo de un corpus de preguntas y
respuestas factuales similares a las utilizadas en las conferencias TREC. Dicho corpus
consta de más de 70.000 muestras, cada una de ellas con la siguiente información:
una pregunta, el tipo de esa pregunta, la respuesta exacta, el párrafo del que ha sido
extraída la respuesta, el documento del que ha sido extraído el párrafo y una etiqueta
indicando si la respuesta es correcta (muestra positiva) o no (muestra negativa) en
el contexto proporcionado. El corpus desarrollado puede ser utilizado, por ejemplo,
para entrenar un clasificador binario que decida de forma automática si la respuesta
proporcionada por un determinado sistema es correcta o no. Hasta donde conocemos,
éste es el primer corpus que puede ser utilizado para entrenar todos y cada uno de
los módulos de un sistema de Búsqueda de Respuestas: clasificación de la pregunta,
recuperación de información, extracción de la respuesta y validación de la misma.
El proceso para la obtención del corpus ha sido realizado de forma semi-automática. This paper describes the development of an English corpus of factoid
TREC-like question-answer pairs. The corpus obtained consists of a set of more
than 70,000 samples, containing each one the following information: a question,
its question type, an exact answer to that question, the different context levels
(sentence, paragraph and document) where the answer occurs inside a document,
and a label indicating whether the answer is correct (a positive sample) or not (a
negative sample). For instance, this corpus can be used for training a binary classifier
in order to decide if a given answer is correct (positive) to the question formulated
or not (negative). To our knowledge, this is the first corpus that can be used to
train each one of the modules of a trainable Question Answering system: question
classification, information retrieval, answer extraction and answer validation. The
process carried out to obtain the corpus was semi-automatic. Este trabajo ha sido desarrollado en el marco del
proyecto CICYT R2D2 (TIC2003-07158-C04). |