Metabuscador

Inicio Atrás
Título:	Desarrollo de un corpus de entrenamiento para sistemas de búsqueda de respuestas basados en aprendizaje automático
Autores:	Bisbal Asensi, Empar Moreno Boronat, Lidia Tomás Díaz, David Vicedo González, José Luis
Fecha:	2007-11-23 2007-11-23 2006-09
Publicador:	RUA Docencia
Fuente:
Tipo:	info:eu-repo/semantics/article
Tema:	Corpus Aprendizaje automático Búsqueda de respuestas Corpora Machine learning Question answering
Descripción:	En este trabajo se describe el desarrollo de un corpus de preguntas y respuestas factuales similares a las utilizadas en las conferencias TREC. Dicho corpus consta de más de 70.000 muestras, cada una de ellas con la siguiente información: una pregunta, el tipo de esa pregunta, la respuesta exacta, el párrafo del que ha sido extraída la respuesta, el documento del que ha sido extraído el párrafo y una etiqueta indicando si la respuesta es correcta (muestra positiva) o no (muestra negativa) en el contexto proporcionado. El corpus desarrollado puede ser utilizado, por ejemplo, para entrenar un clasificador binario que decida de forma automática si la respuesta proporcionada por un determinado sistema es correcta o no. Hasta donde conocemos, éste es el primer corpus que puede ser utilizado para entrenar todos y cada uno de los módulos de un sistema de Búsqueda de Respuestas: clasificación de la pregunta, recuperación de información, extracción de la respuesta y validación de la misma. El proceso para la obtención del corpus ha sido realizado de forma semi-automática. This paper describes the development of an English corpus of factoid TREC-like question-answer pairs. The corpus obtained consists of a set of more than 70,000 samples, containing each one the following information: a question, its question type, an exact answer to that question, the different context levels (sentence, paragraph and document) where the answer occurs inside a document, and a label indicating whether the answer is correct (a positive sample) or not (a negative sample). For instance, this corpus can be used for training a binary classifier in order to decide if a given answer is correct (positive) to the question formulated or not (negative). To our knowledge, this is the first corpus that can be used to train each one of the modules of a trainable Question Answering system: question classification, information retrieval, answer extraction and answer validation. The process carried out to obtain the corpus was semi-automatic. Este trabajo ha sido desarrollado en el marco del proyecto CICYT R2D2 (TIC2003-07158-C04).
Idioma:	Español

1 Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio	6 Análisis Real de Varias Variables II. Problemas (27-3-2013) por Conde Calero, Juan Manuel
2 Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.	7 Introducción a mirada/s trans/identitarias,Introduction to trans-identitary look(s) por Amaro Quintas, Ángel Manuel
3 Motivos del creciente uso de traducción automática seguida de posedición,Motius del creixent ús de la traducció automàtica seguida de postedició,Reasons for the increasing use of machine translation followed by post-editing por Sánchez Martínez, Felipe	8 El «romance familiar» sale del armario: la fantasía femenina en Sévigné (Julia Berkowitz),The “family romance” comes out of the closet: the female fantasy in Sévigné (Julia Berkowitz) por Ituarte Pérez, Leire
4 Nuevas perspectivas sobre las relaciones púnicas con la costa ibérica del sureste peninsular,New perspectives on Punic relations with the Iberian coast of Peninsular Southeast por Sala Sellés, Feliciana	9 De la tradición sáfica a los círculos tribádicos: la búsqueda de las identidades lésbicas desde una perspectiva histórica (De la antigüedad clásica a la edad moderna),From the Sapphic tradition to the tribadic circles: the search of lesbic identities from a historical perspective (From antiquity to the modern age) por Beteta Martín, Yolanda
5 Los espacios periurbanos en el área ibérica contestana: las novedades y algunas reflexiones históricas por Sala Sellés, Feliciana	10 Matrimonio igualitario y parentesco: discursos, hegemonías y acontecimiento,Egalitarian marriage and kinship: discourses, hegemony and event por Buzaglo, Analía,Morandi, Mariela,Culla, Mónica