Metabuscador

Inicio Atrás
Título:	Ampliación automática de corpus mediante la colaboración de varios etiquetadores
Autores:	Enríquez de Salamanca Ros, Fernando Troyano Jiménez, José Antonio Cruz Mata, Fermín Ortega Rodríguez, Francisco Javier
Fecha:	2007-11-19 2007-11-19 2006-09
Publicador:	RUA Docencia
Fuente:
Tipo:	info:eu-repo/semantics/article
Tema:	Generación de recursos Aprendizaje automático Combinación de sistemas Resource generation Machine learning System combination
Descripción:	La disponibilidad de grandes corpus con texto etiquetado es un aspecto esencial en muchas tareas del procesamiento del lenguaje natural. El esfuerzo que se requiere para etiquetar manualmente este gran número de frases ha animado a los investigadores a crear aplicaciones automáticas para este trabajo. Nuestra propuesta representa un método para incrementar el tamaño de un corpus pequeño de manera totalmente automática o con un mínimo esfuerzo, hasta que adquiera el número deseado de frases. El contenido que se añade al corpus se obtiene de cualquier fuente como puede ser Internet, de la cual se puedan extraer frases sin etiquetar para ser analizadas. Si consideramos el pequeño corpus etiquetado como la semilla, nuestro método hace que evolucione hasta lograr el tamaño deseado. El proceso se basa en la opinión de varios etiquetadores mediante la técnica de co-training y de la aplicación de un segundo nivel de aprendizaje mediante stacking. Esta última será la técnica que nos servirá para decidir cuáles de las nuevas frases etiquetadas serán seleccionadas para pasar a formar parte del corpus. The availability of extense tagged data corpus is an essential aspect in many NLP tasks. The effort required for tagging manually this large number of phrases has encouraged many researchers like us to create automatic applications for this issue. Our approach represents a completely automatic method (optionally applying a minimum effort) for enlarging an already existing corpus, so it acquires the desired number of tagged phrases. The extra content of the corpus will be obtained from any knowledge source like the web, from where we extract untagged sentences to be analyzed. Considering the initial small corpus as the seed, our method makes it evolve until it reaches the goal size. The process is based on several taggers using the co-training technique, achieving the results after a number of iterations and applying the stacking scheme for deciding which new tagged sentences must be incorporated to the new corpus. Parcialmente financiado por el Ministerio de Educación y Ciencia (TIN2004-07246-C03-03).
Idioma:	Español

1 Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio	6 Análisis Real de Varias Variables II. Problemas (27-3-2013) por Conde Calero, Juan Manuel
2 Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.	7 Introducción a mirada/s trans/identitarias,Introduction to trans-identitary look(s) por Amaro Quintas, Ángel Manuel
3 Motivos del creciente uso de traducción automática seguida de posedición,Motius del creixent ús de la traducció automàtica seguida de postedició,Reasons for the increasing use of machine translation followed by post-editing por Sánchez Martínez, Felipe	8 El «romance familiar» sale del armario: la fantasía femenina en Sévigné (Julia Berkowitz),The “family romance” comes out of the closet: the female fantasy in Sévigné (Julia Berkowitz) por Ituarte Pérez, Leire
4 Nuevas perspectivas sobre las relaciones púnicas con la costa ibérica del sureste peninsular,New perspectives on Punic relations with the Iberian coast of Peninsular Southeast por Sala Sellés, Feliciana	9 De la tradición sáfica a los círculos tribádicos: la búsqueda de las identidades lésbicas desde una perspectiva histórica (De la antigüedad clásica a la edad moderna),From the Sapphic tradition to the tribadic circles: the search of lesbic identities from a historical perspective (From antiquity to the modern age) por Beteta Martín, Yolanda
5 Los espacios periurbanos en el área ibérica contestana: las novedades y algunas reflexiones históricas por Sala Sellés, Feliciana	10 Matrimonio igualitario y parentesco: discursos, hegemonías y acontecimiento,Egalitarian marriage and kinship: discourses, hegemony and event por Buzaglo, Analía,Morandi, Mariela,Culla, Mónica