Título: Towards a rich dependency annotation of Spanish corpora
Hacia una anotación de dependencias enriquecida de corpus españoles
Autores: Mille, Simon
Burga, Alicia
Vidal Méndez, Vanesa
Wanner, Leo
Fecha: 2009-10-06
2009-10-06
2009-09
Publicador: RUA Docencia
Fuente:
Tipo: info:eu-repo/semantics/article
Tema: Anotación de corpus
Dependencia
Sentido-texto
Sintaxis superficial
Sintaxis profunda
Lengua española
Base de datos de árboles
Corpus annotation
Dependency
Meaning-text
Surface syntax
Deep syntax
Spanish language
Treebank
Lenguajes y Sistemas Informáticos
Descripción: En este artículo presentamos una estrategia de bajo coste para la creación de un corpus de estructuras sintácticas (tanto superficiales como profundas) y semánticas, tal y como son definidas en la Teoría Sentido-Texto. El corpus es de tamaño medio, pero muy preciso y detallado. La estrategia parte de un pequeño corpus de dependencias, el corpus AnCora, cuya anotación es mucho menos detallada que la nuestra. Mostramos que la discrepancia entre ambas anotaciones se puede salvar en gran medida a través de medios automáticos, lo cual permite que los recursos necesarios se desarrollen en poco tiempo y con un esfuerzo humano limitado. Asimismo, proponemos una evaluación preliminar de la cantidad de trabajo requerido en términos reales en el proceso de anotación.
We present a cost-effective strategy for the creation of a mid-size fine-grained Spanish dependency tree bank of surface-, deep-syntactic and semantic structures as defined in the Meaning-Text Theory. The strategy starts from a small seed dependency corpus, the AnCora corpus, whose annotation is considerably more coarse-grained than our target annotation. We show that this discrepancy can be bridged largely by automatic means. This allows us to develop the resources with limited human effort within a limited period of time. We also propose a preliminary evaluation of the actual amount of work that the annotation process requires.
Idioma: Inglés

Artículos similares:

Choosing the correct paradigm for unknown words in rule-based machine translation systems por Sánchez Cartagena, Víctor Manuel,Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Pérez Ortiz, Juan Antonio
Using external sources of bilingual information for on-the-fly word alignment por Esplà Gomis, Miquel,Sánchez Martínez, Felipe,Forcada Zubizarreta, Mikel L.
10