Metabuscador

Inicio Atrás
Título:	Are the existing training corpora unnecessarily large? ¿Son los corpora de dependencias innecesariamente grandes?
Autores:	Ballesteros Martínez, Miguel Herrera de la Cruz, Jesús Francisco Gilmartín, Virginia Gervás Gómez-Navarro, Pablo
Fecha:	2012-04-25 2012-04-25 2012-03
Publicador:	RUA Docencia
Fuente:
Tipo:	info:eu-repo/semantics/article
Tema:	Análsis sintáctico de dependencias CoNLL Shared Tasks Diseño de corpora Optimización Dependency parsing Design principles for Treebanks Optimization Lenguajes y Sistemas Informáticos
Descripción:	El tamaño de los corpora de entrenamiento ha sido siempre uno de los cuellos de botella de los analizadores de dependencias, tanto en términos de optimización como en términos de precisión. En previos estudios nos dimos cuenta que los corpora pueden contener proporciones significativas de datos redundantes al nivel de árboles sintácticos. Dado que el desarrollo de estos tipos de corpora requiere un gran esfuerzo consideramos que un proceso apropiado para seleccionar las frases que se incluyen en el producto final pueden proporcionar sistemas entrenados con los mismos resultados (o incluso mejores) utilizando menor cantidad de frases. Este argumento se demuestra en el estudio llevado a cabo que se expone en este artículo. This paper addresses the problem of optimizing the training treebank data because the size and quality of the data has always been a bottleneck for the purposes of training. In previous studies we realized that current corpora used for training machine learning–based dependency parsers contain a significant proportion of redundant information at the syntactic structure level. Since the development of such training corpora involves a big effort, we argue that an appropriate process for selecting the sentences to be included in them can result in having parsing models as accurate as the ones given when training with bigger – non optimized corpora (or alternatively, bigger accuracy for an equivalent annotation effort). This argument is supported by the results of the study we carried out, which is presented in this paper. Therefore, this paper demonstrates that the training corpora contain more information than needed for training accurate data–driven dependency parsers. This research is funded by the Spanish Ministry of Education and Science (TIN2009-14659-C03-01 Project), Universidad Complutense de Madrid and Banco Santander Central Hispano (GR58/08 Research Group Grant).
Idioma:	Inglés

1 Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio	6 Análisis Real de Varias Variables II. Problemas (27-3-2013) por Conde Calero, Juan Manuel
2 Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.	7 Introducción a mirada/s trans/identitarias,Introduction to trans-identitary look(s) por Amaro Quintas, Ángel Manuel
3 Motivos del creciente uso de traducción automática seguida de posedición,Motius del creixent ús de la traducció automàtica seguida de postedició,Reasons for the increasing use of machine translation followed by post-editing por Sánchez Martínez, Felipe	8 El «romance familiar» sale del armario: la fantasía femenina en Sévigné (Julia Berkowitz),The “family romance” comes out of the closet: the female fantasy in Sévigné (Julia Berkowitz) por Ituarte Pérez, Leire
4 Nuevas perspectivas sobre las relaciones púnicas con la costa ibérica del sureste peninsular,New perspectives on Punic relations with the Iberian coast of Peninsular Southeast por Sala Sellés, Feliciana	9 De la tradición sáfica a los círculos tribádicos: la búsqueda de las identidades lésbicas desde una perspectiva histórica (De la antigüedad clásica a la edad moderna),From the Sapphic tradition to the tribadic circles: the search of lesbic identities from a historical perspective (From antiquity to the modern age) por Beteta Martín, Yolanda
5 Los espacios periurbanos en el área ibérica contestana: las novedades y algunas reflexiones históricas por Sala Sellés, Feliciana	10 Matrimonio igualitario y parentesco: discursos, hegemonías y acontecimiento,Egalitarian marriage and kinship: discourses, hegemony and event por Buzaglo, Analía,Morandi, Mariela,Culla, Mónica